帮助文档 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
帮助文档 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 日志服务
  4. 操作指南
  5. 数据加工
  6. 数据加工(旧版)
  7. 性能指南

性能指南

  • 数据加工(旧版)
  • 发布于 2025-04-22
  • 0 次阅读
文档编辑
文档编辑

本文档为您介绍进行数据加工时,会影响加工性能的可能的因素。帮助您解决加工性能问题。

根据加工原理,数据加工任务的总体速度取决于源Shard的数量、用户配置的规则逻辑和规则复杂度。一般可以按照每Shard处理1MB/s(压缩前)流量规划,也就是大约85 GB每天每Shard规划。例如:源Logstore的数据写入速度是每天1 TB,那么需要分裂源Logstore的Shard数量为1024GB/85=12个。关于Shard分裂请参见分裂Shard。

数据加工性能

数据加工速率与加工规则有关,具体体现如下:

  • 写出输出

    • 与事件大小相关。写出事件越多(事件进行了分裂),写出事件字段越多,内容越长,写出的数据包计算与网络量消耗越大,则速度越慢。反之越快。

    • 与事件分组相关。写出目标越多,事件标签TAG越多,输出的数据包日志组越多,网络交互越多,则速度越慢。反之越快。

  • 加工逻辑

    加工逻辑越复杂,搜索计算越多,频繁进行外部资源同步,对计算与网络消耗越大,则速度越慢。反之越快。

  • 第三方数据源

    从第三方获取数据源进行富化,数据源的数据量越大,或存在跨域通讯,例如去抓取其他区域OSS的文件,则速度越慢。

源Logstore加工扩展

  • 实时数据加工扩展。

    可以通过增加shard(readwrite状态)数量来实现扩展,shard费用请参见按使用功能计费。

  • 历史数据加工扩展。

    Shard分裂仅对新写入数据有效。如果历史数据量较大且Shard数量较少,可以对源Logstore构建多个数据加工任务,分别配置无重叠的加工时间即可。例如要处理9/1到9/10的历史日志,则按照天将任务切分成9个,分别处理时间段:[9/1, 9/2), [9/2, 9/3) .... [9/9, 9/10]。

    说明

    加工时间是日志接收时间,具体配置请参见创建数据加工任务。

目标Logstore加工扩展

目标Logstore的Shard数量主要由两方面决定:

  • 数据加工的写入速率。Logstore单个Shard的写入速率上限是5 MB/s,因此可以根据源Logstore的Shard数量,加工的并发数来估算。

    例如源Logstore有20个Shard,那么目标Logstore至少有4个Shard。

  • 目标Logstore是否需要建立索引进行查询统计。如果目标Logstore希望建立索引并且进行统计查询,那么建议基于SQL统计每次查询的覆盖范围,每5000万条日志一个Shard的粒度来规划。

    例如,每天加工并写入10 GB日志,按照每条1 KB算,每天有1千万条日志规模。每次查询和统计希望可以覆盖30天数据量,其总体日志量大约是3亿条,建议将目标Logstore的Shard数量规划为6个。

相关文章

数据加工概述 2025-04-22 10:55

日志服务提供可托管、可扩展、高可用的数据加工服务。数据加工服务可用于数据的规整、富化、流转、脱敏和过滤。

基本概念 2025-04-22 10:55

本文档主要介绍数据加工功能的一些基本概念。 基本概念

加工原理 2025-04-22 10:55

日志服务提供的数据加工功能,通过编排内置的两百多个函数,使用协同消费组对日志数据进行消费,实现对日志数据的加工处理。本文档主要介绍进行数据加工时日志数据的调度原理,以及加工规则引擎的工作原理。 调度原理

使用限制 2025-04-22 10:55

本文介绍日志服务数据加工的使用限制。 任务配置

支持地域 2025-04-22 10:55

本文介绍日志服务数据加工支持的地域信息。 以下地域支持使用日志服务的数据加工功能。

授权 2025-04-22 10:55

您使用数据加工功能时,涉及数据加工操作权限和数据访问权限。 如果您使用的是阿里云账号,直接执行加工任务访问数据授权。

目录
Copyright © 2025 your company All Rights Reserved. Powered by 博智数字服务平台.
闽ICP备08105208号-1