可视化实验开发

可视化实验开发主要包含以下方面,新建实验、配置组件、运行实验、查看日志、周期调度、任务运维、模型部署等。

可视化实验模板

算法开发可视化实验实验演示文件夹下,系统预置了HeartDisease(心脏病预测)Shop_Cluster(门店聚类)EmotionAnalysis_of_Comment(评论情感分析)等预置实验,可参照预置预置实验开启算法建模之旅。

2020 10 15 11 31 02
  • 运行预置实验 *

预置实验可进行运行、提交、查看数据结果、查看评估结果,了解算法建模的常用操作;

  • 重置预置实验 *

右键点击某实验重置操作,可将实验恢复至初始化状态;

  • 删除预置实验 *

预置实验不可删除;

新建可视化实验

  • 新建可视化实验

算法开发导航模块下的实验菜单中,可点击新建实验图标,展开 新建弹框,或者右键点击文件夹,在该文件夹下新建实验。填写项说明:

  1. 实验名称:只支持字母、数字、下划线,不超过32个字符;

  2. 存储位置:选择任务放置的文件夹。文件夹支持新增,可点击左侧任务列表上方的新建文件夹图标,新建文件夹;

  3. 实验描述:填写实验描述,不超过64个字符;

Experiment_Development-新建实验.png
  • 编辑可视化实验

实验画布创建后,进入左侧菜单栏组件菜单中,可将算法组件列表中的需要的组件拖拉拽至右侧的实验画布中,进行组件连接, 组成可视化的实验流程。
数据科学提供丰富的算法组件,包含数据源/目标、数据工具、数据合并、数据预处理、机器学习、预测、评估等多类组件,并不断丰富中。

Experiment_编辑实验.png
  • 配置组件参数

点击画布中的算法组件,在右侧面板组件参数中配置组件参数,具体组件的参数配置详见组件配置。若需要了解各组件 的介绍说明,可在右侧面板组件说明中查看。

Experiment_Development-组件参数.png
  • 配置任务调度属性

数据科学提供了丰富的时间周期和依赖关系支持,支持分钟、小时、天、周、月的任务跑批和模型训练,并支持跨周期依赖,请参考模型训练
若需配置任务的调度属性,打开右侧调度周期面板,进行调度周期、生效时间、跨周期依赖方式的配置。
任务编写完成,并配置好调度属性、任务参数后,可进行实验提交模型部署

运行可视化实验

可视化实验流程搭建完成后,可进行实验运行,验证实验流程逻辑的正确性。
数据科学目前提供3种方式使任务中的代码对数据生效,页面直接运行、系统根据调度配置自动周期运行和补数据运行。
页面直接运行适用于即时查询,验证实验流程逻辑正确性。系统周期运行适用于实验逻辑已经过验证,进行定时的算法任务跑批或模型训练。补数据与离线计算开发的 场景一致,适用于数据源修改或代码任务发生修改时,重新跑数据的场景。下面重点说明页面直接运行的场景,系统自动周期运行补数据运行运维中心中 具体介绍。

  • 页面直接运行实验

可视化实验搭建完成后,在操作区单击运行按钮触发任务运行,实验将从根节点按照流程执行,可根据节点状态判断组件运行情况,同时日志面板 中也会实时打印运行日志。
组件运行状态包含3种,1.运行成功、2.运行失败、3.运行中。当某个组件节点运行失败时,其下游节点也将不会被执行,整个实验也处于失败状态。

Experiment_Development-实验运行.png

除实验整体运行外,也可右键单个组件,对单个组件进行操作。操作及释义如下:

操作 操作释义 备注

重命名

对组件节点进行重命名,支持用户自定义

系统默认会按照"算法名称_拖拽顺序"命名节点名称

删除

删除当前节点

节点删除时,其组件参数配置将被删除。若节点运行成功过,其产生的数据表不会被删除

复制

复制当前节点,其组件参数配置也将被复制,

从此处开始执行

执行此节点及其下游的组件节点

执行到此节点

从根节点开始运行实验,执行到当前节点

执行此节点

只执行当前节点

查看数据

查看当前节点运行结果,部分组件包含多个输出结果。

运行数据结果以表格的方式展现,支持下载

查看日志

查看当前节点本次运行的运行日志

日志过大时,支持用户下载日志文件

模型选项

查看模型的模型描述,后续支持查看模型输出、模型保存、模型导出等

只有机器学习模型、深度学习模型包含此操作

查看评估报告

查看评估模型的评估报告,不同的评估模型展示不同的指标及评估曲线

模型评估组件包含此操作

Experiment_Development-组件操作.png
  • 查看运行日志

实验开始运行后,编辑器下方会弹出运行日志面板,可查看具体运行日志,了解实验运行进度。
无论运行几次,日志页只有一个,仅显示最近一次触发运行日志的信息,之前的日志会被覆盖掉。
可右键单击某个组件,查看某组件运行的完整日志。

  • 查看运行结果

实验的运行结果需在单个组件节点中查看,右键单击单个组件节点,点击查看数据结果查看每个节点的运行结果。
数据结果在页面展示时,只展示前100条数据,若要查询全部数据结果,可直接查询表。

实验提交

实验在页面运行成功,并配置好调度周期后,可单击操作区的部署-实验提交按钮进行可视化实验提交。实验提交运行的实际业务场景一般包含2种:

  1. 算法建模任务是一个业务场景作业,周期调度下定时将结果写入数据表中,结果数据表供业务的数据使用场景应用。

  2. 算法建模任务是一个模型训练作业,周期调度下训练模型参数,最终优质的模型参数可进行模型部署输出。

实验提交后将在运维中心—​任务管理中产生一条任务记录,表示此任务已经进入任务运维阶段。除在数据科学的运维中心—​任务管理产生一条任务记录外, 也会在离线计算中与数据科学同名项目下的运维中心—​任务管理中产生一条任务记录。因为数据科学的任务调度依赖于离线计算模块,任务类型 为算法实验。
实验提交后,将按照配置的调度周期自动运行,会产生周期实例。每个任务产生的周期实例暂不支持在数据科学查看,需在离线计算中 与数据科学同名项目下的运维中心—​周期实例中进行任务实例查看及运维。
周期实例及补数据实例的运维详见 运维中心

冻结任务

如果需要让某个实验停止运行一段时间,可在右侧面板调度依赖勾选冻结,任务冻结后:

  • 处于冻结状态的任务,周期实例依然会生成,但不会运行;

  • 如果在离线计算中将算法任务配置成某个任务的上游,当算法任务处于冻结状态时,其下游任务也会进入"`冻结`"状态,下游任务的实例也会产生,但不会运行。下游任务的 执行日志将会打印出由于上游任务被冻结而没有执行的日志;

  • 周期任务的冻结,第二天才会生效。若要重新运行任务,必须将实例解冻后,再单击重跑。如果需要紧急冻结任务,可以在周期实例中进行冻结操作。

依然可以对冻结状态的任务执行补数据,补数据实例会正常运行。

出错重试

算法任务支持出错重试,可在右侧面板调度周期中设置,重试次数可设置1-5次,每次间隔2分钟,若重试后仍失败,则此任务运行失败。

删除任务

如果在编辑过程中想要放弃一个任务编辑版本,或周期任务提交后从调度系统汇总去掉该任务的自动运行,可在实验的左侧任务列表中 右键点击此任务,弹出操作面板,进行删除

  • 如果此任务被其他任务依赖(是某任务的上游),则不能直接被删除,需解除依赖关系后删除。

  • 任务删除后,已生成的任务实例不会被删除,但会运行失败。

搜索任务

但任务数量较多,需要快速查找并打开任务时,可点击左侧任务列表栏上方的搜索按钮,进行任务搜索,并打开该任务。