监控告警

告警监控模块中保存了数栈产生的所有离线任务告警信息,同时支持用户自定义告警规则,配置成功后,当监控的任务触发了告警规则后,数栈将以邮件、短信、钉钉或电话的形式通知相关人员。
点击导航栏的"运维中心"菜单,在左侧的"监控告警"菜单下,可查看告警记录和进行告警配置。

告警记录

告警记录列表中包括了系统产生的所有任务告警信息,可查看每条告警明细,包含告警发送时间、任务名称和类型、触发方式、任务责任人、告警方式、告警接收人和具体告警内容,目前产生的告警总数等信息。
可根据告警发送时间、任务名称、告警接收人等信息筛选特定的告警记录。

告警配置

对任务进行告警配置、查看、修改已配置的规则,同时可对告警规则进行打开或关闭。
配置方式如下:

  • 创建告警规则
    点击告警规则列表右上角的"`创建告警规则",在弹窗中完善如下信息:

    1. 告警规则名称;

    2. 任务名称:目前一条告警规则仅支持配置一个任务;

    3. 告警触发点:
      可选择"任务失败"、“`任务停止`”、“`定时未完成`”、"超时未完成"中的一种。

      1. 任务失败、任务停止:任务出错失败或任务被用户手动杀掉时通知相关责任人。由于平台可能被多个用户使用,因此任务停止主要用于用户需要保障此任务不被其他用户停止时使用。

      2. 定时未完成:若对任务执行的时间长度有预期,可选择"定时未完成",输入任务运行时长后,若此任务执行时长超过了设定值,数栈会通知责任人。例如:业务上需要在每天早上9点将任务运行成功,则可以选择超时未完成,并设定为早上9:00,超过此时间时将会发送告警。

      3. 超时未完成:若对任务的启动时间、执行完成时间有预期,需要输入任务的运行时长,若此任务超过了这个时长未完成,数栈会通知责任人。超时的时长是从任务的开始运行的时间开始计算的。

    4. 告警方式:支持邮件、短信、钉钉(需要填webhook地址)、电话;

    5. 告警接收人:可选择此任务的责任人和项目组内的其他人员;

  • 告警规则的开启、关闭
    开启某告警规则,表示数栈会按照用户设定的规则产生并发送告警。
    关闭某告警规则,通常用于相要暂停告警,但也不作删除,以免以后可能再次开启的情况。