监控告警
监控告警用于监控模型训练任务是否运行正常,当触发告警规则时,可及时通知告警告警接收人。
产品的告警内容能够到达客户端,需先在控制台配置告警通道,保障告警通道畅通。 |
告警规则
步骤一:进入运维中心-监控告警-告警规则页面,点击创建告警按钮,配置告警规则;
步骤二:填写基础信息,包含规则名称、选择告警任务;
-
规则名称:除空格外,其余字符都支持,不超过64个字符;
-
选择任务:选择项目中需告警的任务,可添加多个任务,添加后也支持删除;
步骤三:选择告警触发方式,单选,包含以下5种触发规则;
-
任务失败:任务运行失败、提交失败时触发告警;
-
小时任务、分钟任务可设置连续失败几次,再发送告警,抑制告警频率;
-
-
任务成功:任务成功触发告警;
-
超时未完成:从开始运行时间起算,经过n分钟未运行完成(运行成功之外的状态),触发告警;
-
定时未完成:选择某触发时刻,在该时刻任务未运行完成(运行成功之外的状态),触发告警;
-
特定规则:目前支持每天周期任务全部运行完成触发告警,其中不包含小时、分钟任务;
只有周期跑批任务会触发告警,页面运行、任务重跑、或补数据运行时不触发告警规则。 |
步骤四:配置告警接收规则:
-
告警次数:可设置触发告警规则,任务的告警次数,比如设置2,则该告警会发送2次;
-
告警间隔:设置每次告警的间隔时间,比如30min,则第1次告警发送过30min后发送第2次告警;
-
免打扰时间:该时间段内不发送告警,告警间隔的具体的时刻会去掉免打扰时间;
-
告警方式:支持短信、钉钉、邮件3种告警方式,可多选;
-
钉钉告警方式需填写webhook地址,可在钉钉群的详细信息中查看;
-
告警接收人:可选择任务负责人、或其他接收人;
-
