报警配置功能提供容器场景报警能力的统一管理,包括容器服务异常事件报警,以及容器场景指标报警。您可以通过集群内部署CRD的方式配置容器服务的报警规则。本文介绍在注册集群中如何接入报警配置功能及如何配置报警规则。
前提条件
已创建ACK One注册集群,并已将本地数据中心自建Kubernetes集群接入ACK One注册集群。具体操作,请参见创建ACK One注册集群。
获取集群KubeConfig并通过kubectl工具连接注册集群。
在注册集群中配置云监控组件
步骤一:为云监控组件配置RAM权限
通过onectl配置
在本地安装配置onectl。具体操作,请参见通过onectl管理注册集群。
执行以下命令,为云监控组件配置RAM权限。
onectl ram-user grant --addon alicloud-monitor-controller预期输出:
Ram policy ack-one-registered-cluster-policy-alicloud-monitor-controller granted to ram user ack-one-user-ce313528c3 successfully.
通过控制台配置
在注册集群中安装组件前,您需要在接入集群中设置AccessKey用来访问云服务的权限。设置AccessKey前,您需要创建RAM用户并为其添加访问相关云资源的权限。
创建RAM用户。
创建自定义权限策略。权限策略模板如下所示:
{ "Action": [ "log:*", "arms:*", "cms:*", "cs:UpdateContactGroup" ], "Resource": [ "*" ], "Effect": "Allow" }为RAM用户授权。
为RAM用户创建AccessKey。
警告建议您参见AccessKey网络访问限制策略配置网络策略,将AccessKey调用来源控制在可信的网络环境内,提升AccessKey的安全性。
使用AccessKey在注册集群中创建名为alibaba-addon-secret的Secret资源。
安装云监控组件时将自动引用此AccessKey访问对应的云服务资源。
kubectl -n kube-system create secret generic alibaba-addon-secret --from-literal='access-key-id=<your access key id>' --from-literal='access-key-secret=<your access key secret>'说明<your access key id>及<your access key secret>为上一步获取的AccessKey信息。
步骤二:安装与升级云监控组件
通过onectl安装
执行以下命令,安装云监控组件。
onectl addon install alicloud-monitor-controller预期输出:
Addon alicloud-monitor-controller, version **** installed.通过控制台安装
控制台会自动检测报警配置环境是否符合要求,并会引导进行开通、安装或升级组件。
登录容器服务管理控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择。
在报警配置页面,单击开始安装,控制台会自动检查条件,进行安装、升级组件。
安装升级完成后,进入报警配置页面配置报警信息。
页签
说明
报警规则管理
打开启动状态开启对应报警规则集,单击编辑通知对象可设置关联的通知对象。
报警历史
目前可查看最近1天内发送的最新100条历史记录。单击报警规则列下的链接,可以跳转到对应监控系统中查看详细规则配置;单击排查现场,可以快速定位到异常发生的资源页面(异常事件、指标异常的资源)。
联系人管理
对联系人进行管理,可创建、编辑或删除联系人。
联系方式可以通过短信、邮箱和机器人类型进行设置,需先在云监控控制台中验证,以便接收报警信息。还支持同步联系人,如果验证信息过期,可在云监控中删除对应联系人,并刷新联系人页面。通知对象为机器人类型设置请参见钉钉机器人、企业微信机器人和飞书机器人。
联系人分组管理
对联系人分组您进行管理,可创建、编辑或删除联系人分组。当无联系人分组时,控制台会从您的阿里云账号注册信息中同步创建一个默认联系人分组。
接入报警配置功能
步骤一:开启默认报警规则
登录容器服务管理控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择。
在报警规则管理页签,开启对应报警规则集。

步骤二:手动配置报警规则
登录容器服务管理控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择。
在报警规则管理页签,单击编辑通知对象可设置关联的通知对象;打开启动状态可开启对应报警规则集。
功能特性
说明
报警规则管理
容器服务报警规则功能会默认生成容器场景下的报警模板(包含异常事件报警、异常指标报警)。
报警规则被分类为若干个报警规则集,可为报警规则集关联多个联系人分组,并启动或关闭报警规则集。
报警规则集中包含多个报警规则,一个报警规则对应单个异常的检查项。多个报警规则集可以通过一个YAML资源配置到对应集群中,修改YAML会同步生成报警规则。
关于报警规则YAML配置,请参见如何通过CRD配置报警规则。
关于默认报警规则模板,请参见容器服务报警管理。
报警历史
目前可查看最近发送的近100条历史记录。单击对应报警规则类型的链接,可跳转到对应监控系统中查看详细规则配置;单击对应报警排查现场的链接可快速定位到异常发生的资源页面(异常事件、指标异常的资源)。

联系人管理
对联系人进行管理,可创建、编辑或删除联系人。
联系人分组管理
对联系人分组进行管理,可创建、编辑或删除联系人分组。当无联系人分组时,控制台会从您的阿里云账号注册信息中同步创建一个默认联系人分组。
如何通过CRD配置报警规则
报警配置功能开启时,会默认在kube-system命名空间下创建一个AckAlertRule类型的资源配置,包含默认报警规则模板。容器服务报警规则集可通过此资源配置在集群中。
登录容器服务管理控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择。
在报警规则管理页签,单击右上角编辑报警配置,然后单击目标规则列右侧操作列下的YAML,即可查看当前集群中的AckAlertRule资源配置。
参考默认报警规则模板说明,修改示例YAML文件。
报警规则配置的YAML文件示例如下:
apiVersion: alert.alibabacloud.com/v1beta1 kind: AckAlertRule metadata: name: default spec: groups: # 以下是一个集群事件报警规则配置样例。 - name: pod-exceptions # 报警规则分组名,对应报警模板中的Group_Name字段。 rules: - name: pod-oom # 报警规则名。 type: event # 报警规则类型(Rule_Type),枚举值为event(事件类型)、metric-cms(云监控指标类型)。 expression: sls.app.ack.pod.oom # 报警规则表达式,当规则类型为event时,表达式的值为本文默认报警规则模板中Rule_Expression_Id值。 enable: enable # 报警规则开启状态,枚举值为enable、disable。 - name: pod-failed type: event expression: sls.app.ack.pod.failed enable: enable # 以下是一个集群基础资源报警规则配置样例。 - name: res-exceptions # 报警规则分组名,对应报警模板中的Group_Name字段。 rules: - name: node_cpu_util_high # 报警规则名。 type: metric-cms # 报警规则类型(Rule_Type),枚举值为event(事件类型)、metric-cms(云监控指标类型)。 expression: cms.host.cpu.utilization # 报警规则表达式,当规则类型为metric-cms时,表达式的值为本文默认报警规则模板中Rule_Expression_Id值。 contactGroups: # 报警规则映射的联系人分组配置,由ACK控制台生成,同一个账号下联系人相同,可在多集群中复用。 enable: enable # 报警规则开启状态,枚举值为enable、disable。 thresholds: # 报警规则阈值,详情见文档如何更改报警规则阈值部分。 - key: CMS_ESCALATIONS_CRITICAL_Threshold unit: percent value: '1'
默认报警规则模板
在以下情况下注册集群会默认创建相应报警规则:
开启默认报警规则功能。
未开启默认报警规则,首次进入报警规则页面。
默认创建的报警规则如下表所示。
报警项 | 规则说明 | 报警来源 | Rule_Type | ACK_CR_Rule_Name | SLS_Event_ID |
集群巡检发现异常 | 自动巡检机制捕捉到潜在异常,需分析具体问题与日常维护策略。请提交工单联系容器服务团队。 | 日志服务 | event | cis-sched-failed | sls.app.ack.cis.schedule_task_failed |