帮助文档 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
帮助文档 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 表格存储
  4. 操作指南
  5. 数据湖投递

数据湖投递

  • 操作指南
  • 发布于 2025-04-22
  • 0 次阅读
文档编辑
文档编辑

表格存储数据湖投递可以全量备份或实时投递数据到数据湖OSS中存储,以满足更低成本的历史数据存储,以及更大规模的离线和准实时数据分析需求。

应用场景

利用数据湖投递可以实现如下场景需求:

  • 冷热数据分层

    数据湖投递结合表格存储的数据生命周期功能,可以快速实现OSS低成本存储全量数据,表格存储提供热数据的低延迟查询和分析的需求。

  • 全量数据备份

    数据湖投递可以自动将表格存储的全表数据投递到OSS Bucket中,作为备份归档数据。

  • 大规模实时数据分析

    数据湖投递可以实时(每2分钟)投递增量的表格存储数据到OSS,投递的数据支持按系统时间分区、Parquet列存格式存储;再利用OSS的高读带宽和列存面向扫描场景优化实现高效实时数据分析。

image.png

功能特性

数据湖投递的主要功能特性如下:

  • 数据湖投递会自动拉取表格存储的全量和增量数据,数据积累到合适大小或者投递超过2分钟后,持久化到OSS中存储。

  • 支持配置增量、全量、全量&增量三种数据投递模式,投递的所有数据均按照Parquet列存格式存储。

  • 支持监控实时投递的同步时间点,数据湖投递提供了DescribeDeliveryTask API,该API会返回任务已成功投递的实时数据位点。

核心优势

  • 易于使用

    只需在控制台完成简单配置,即可实现全托管的表格存储到OSS的自动投递。无需监控和运维,投递任务保证SLA内同步任务平稳执行和随吞吐规模扩展。

  • 全增量一体

    提供全增量一体的数据投递能力。增量投递任务提供准实时体验,持续拉取新数据并缓存两分钟后写入OSS。

  • 与计算生态无缝集成

    投递的数据兼容开源生态标准,按照Parquet列存格式存储,兼容Hive命名规范。使用E-MapReduce可以直接对投递到OSS的数据进行外表分析。

  • 数据分层的存储与访问体验

    数据投递到OSS后,表格存储提供数据表、索引表、投递OSS等分层数据。满足不同场景的使用分析需求。

注意事项

目前支持数据湖投递功能的地域包括华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)。

使用流程

  1. 通过创建投递任务将表格存储数据投递到OSS。具体操作,请参见通过控制台投递数据到OSS和通过SDK投递数据到OSS。

  2. 使用EMR分析投递到OSS中的表格存储数据。具体操作,请参见使用EMR分析数据。

相关文章

功能概述 2025-04-22 14:44

表格存储面向海量结构化数据提供Serverless表存储服务,适用于海量账单、IM消息、物联网、车联网、风控、推荐等场景中的结构化数据存储,提供海量数据低成本存储、毫秒级的在线数据查

功能和地域支持列表 2025-04-22 14:44

本文介绍表格存储正在邀测和非全地域支持的功能。

基础概念 2025-04-22 14:44

本文介绍表格存储的基本概念。 实例 实例(Instance)是您使用和管理

使用限制 2025-04-22 14:44

通过本文您可以了解表格存储的使用限制。

实例管理 2025-04-22 14:44

本文为您介绍实例管理的相关操作及说明。您可以通过本文了解创建实例、查看实例、实例监控、网络管理、安全策略、数据湖投递、SQL查询、释放实例和管理实例资源等内容。 创建实例 实例是

宽表模型 2025-04-22 14:44

宽表模型(WideColumn)是类Bigtable/HBase模型,可应用于元数据、大数据等多种场景。宽表模型通过数据表存储数据,单表支持PB级数据存储和千万QPS。数据表具有Schema-Free、宽行、多版本数据以及生命周期管理特点,支持主键列自增、局部事务、原子计数器、过滤器、条件更新等功能

目录
Copyright © 2025 your company All Rights Reserved. Powered by 博智数字服务平台.
闽ICP备08105208号-1