告警信息与配置

实时计算支持对实时任务设立独立的告警,用户可通过配置告警内容监控实时任务的运行情况。

image.png

告警方式

当前版本实时计算支持四种告警方式:

  • 邮件

  • 短信

  • 钉钉

  • 自定义通道

告警方式选择"钉钉"时,需额外配置WebHook。
若希望使用"自定义通道",需管理员先在控制台中配置相应的自定义告警通道。

触发方式

针对不同的任务类型,实时计算支持不同的触发方式,具体如下:

触发方式

说明

任务失败

当前实时任务运行失败

任务停止

当前实时任务出现问题停止运行

延迟消费数

Kafka延迟消费的消息条数,多个分区时,任一分区超过阈值时都会触发告警

延迟消费比例

Kafka延迟消费消息条数/总条数,多个分区时,每个分区的延迟消费比例=此分区延迟消费消息条数/此分区的总消息条数,任一分区延迟消费占比超过阈值时都会触发告警

输入/输出速率阈值

监控目标数据源输入输出时BPS、QPS速率阈值,通过配置不同规则设置触发条件,当满足触发条件时触发告警

CheckPoint失败

当前实时任务CheckPoint失败

数据反压

Kafka反压的阈值,当任一分区的反压比例超过阈值都会触发告警

告警抑制

当开启告警规则后,若30分钟内满足告警触发条件,会发送告警信息;当告警信息数量超过设定次数后,告警信息会被抑制,直到1小时后,满足触发条件时再进行告警

告警信息来自于 Prometheus ,如果 Prometheus 或者 pushgateway 网关故障,会无法获取到数据信息.

接收人

告警配置支持多选,用户可搜索账号进行快速添加。

image.png