监控告警

监控告警用于监控模型训练任务是否运行正常,当触发告警规则时,可及时通知告警告警接收人。

产品的告警内容能够到达客户端,需先在控制台配置告警通道,保障告警通道畅通。

告警规则

步骤一:进入运维中心-监控告警-告警规则页面,点击创建告警按钮,配置告警规则;

步骤二:填写基础信息,包含规则名称、选择告警任务;

  • 规则名称:除空格外,其余字符都支持,不超过64个字符;

  • 选择任务:选择项目中需告警的任务,可添加多个任务,添加后也支持删除;

步骤三:选择告警触发方式,单选,包含以下5种触发规则;

  • 任务失败:任务运行失败、提交失败时触发告警;

    • 小时任务、分钟任务可设置连续失败几次,再发送告警,抑制告警频率;

  • 任务成功:任务成功触发告警;

  • 超时未完成:从开始运行时间起算,经过n分钟未运行完成(运行成功之外的状态),触发告警;

  • 定时未完成:选择某触发时刻,在该时刻任务未运行完成(运行成功之外的状态),触发告警;

  • 特定规则:目前支持每天周期任务全部运行完成触发告警,其中不包含小时、分钟任务;

只有周期跑批任务会触发告警,页面运行、任务重跑、或补数据运行时不触发告警规则。

步骤四:配置告警接收规则:

  • 告警次数:可设置触发告警规则,任务的告警次数,比如设置2,则该告警会发送2次;

  • 告警间隔:设置每次告警的间隔时间,比如30min,则第1次告警发送过30min后发送第2次告警;

  • 免打扰时间:该时间段内不发送告警,告警间隔的具体的时刻会去掉免打扰时间;

  • 告警方式:支持短信、钉钉、邮件3种告警方式,可多选;

    • 钉钉告警方式需填写webhook地址,可在钉钉群的详细信息中查看;

    • 告警接收人:可选择任务负责人、或其他接收人;

2020 12 10 14 35 38

告警开启/关闭

告警规则设置后可进行开启、关闭,关闭后将不再发送告警信息。

2020 12 10 14 36 39

告警记录

告警信息会发送给具体终端,如短信、邮件等,同时,也可在产品上的告警记录页面查看。