概述
运维中心作为模型训练任务的管理与运维界面,主要包含以下模块:
-
运维总览
汇总项目中任务执行信息,查看任务执行的汇总指标和趋势。 -
任务管理
管理已提交的模型训练任务,包括实验与Notebook任务,可查看任务基本信息,并冻结、解冻任务。-
运行历史
查看模型运行的周期实例,包含模型运行结果与运行日志,并可对实例进行运维,例如杀死、重跑实例任务。 -
监控告警 对模型训练任务监控,针对触发告警规则的任务,及时通知接收人。
-
运维中心作为模型训练任务的管理与运维界面,主要包含以下模块:
运维总览
汇总项目中任务执行信息,查看任务执行的汇总指标和趋势。
任务管理
管理已提交的模型训练任务,包括实验与Notebook任务,可查看任务基本信息,并冻结、解冻任务。
运行历史
查看模型运行的周期实例,包含模型运行结果与运行日志,并可对实例进行运维,例如杀死、重跑实例任务。
监控告警 对模型训练任务监控,针对触发告警规则的任务,及时通知接收人。