告警信息与配置
实时计算支持对实时任务设立独立的告警,用户可通过配置告警内容监控实时任务的运行情况。

告警方式
当前版本实时计算支持四种告警方式:
-
邮件
-
短信
-
钉钉
-
自定义通道
告警方式选择"钉钉"时,需额外配置WebHook。
若希望使用"自定义通道",需管理员先在控制台中配置相应的自定义告警通道。
触发方式
针对不同的任务类型,实时计算支持不同的触发方式,具体如下:
触发方式 |
说明 |
任务失败 |
当前实时任务运行失败 |
任务停止 |
当前实时任务出现问题停止运行 |
延迟消费数 |
Kafka延迟消费的消息条数,多个分区时,任一分区超过阈值时都会触发告警 |
延迟消费比例 |
Kafka延迟消费消息条数/总条数,多个分区时,每个分区的延迟消费比例=此分区延迟消费消息条数/此分区的总消息条数,任一分区延迟消费占比超过阈值时都会触发告警 |
输入/输出速率阈值 |
监控目标数据源输入输出时BPS、QPS速率阈值,通过配置不同规则设置触发条件,当满足触发条件时触发告警 |
CheckPoint失败 |
当前实时任务CheckPoint失败 |
数据反压 |
Kafka反压的阈值,当任一分区的反压比例超过阈值都会触发告警 |
告警抑制 |
当开启告警规则后,若30分钟内满足告警触发条件,会发送告警信息;当告警信息数量超过设定次数后,告警信息会被抑制,直到1小时后,满足触发条件时再进行告警 |
告警信息来自于 Prometheus ,如果 Prometheus 或者 pushgateway 网关故障,会无法获取到数据信息.
|