概述

运维中心作为模型训练任务的管理与运维界面,主要包含以下模块:

  • 运维总览
    汇总项目中任务执行信息,查看任务执行的汇总指标和趋势。

  • 任务管理
    管理已提交的模型训练任务,包括实验与Notebook任务,可查看任务基本信息,并冻结、解冻任务。

    • 运行历史
      查看模型运行的周期实例,包含模型运行结果与运行日志,并可对实例进行运维,例如杀死、重跑实例任务。

    • 监控告警 对模型训练任务监控,针对触发告警规则的任务,及时通知接收人。