可视化实验开发
可视化实验开发主要包含以下方面,新建实验、配置组件、运行实验、查看日志、周期调度、任务运维、模型部署等。
可视化实验模板
在算法开发可视化实验实验演示文件夹下,系统预置了HeartDisease(心脏病预测)、Shop_Cluster(门店聚类)、EmotionAnalysis_of_Comment(评论情感分析)等预置实验,可参照预置预置实验开启算法建模之旅。

-
运行预置实验 *
预置实验可进行运行、提交、查看数据结果、查看评估结果,了解算法建模的常用操作;
-
重置预置实验 *
右键点击某实验重置操作,可将实验恢复至初始化状态;
-
删除预置实验 *
预置实验不可删除;
新建可视化实验
-
新建可视化实验
在算法开发导航模块下的实验菜单中,可点击新建实验图标,展开 新建弹框,或者右键点击文件夹,在该文件夹下新建实验。填写项说明:
-
实验名称:只支持字母、数字、下划线,不超过32个字符;
-
存储位置:选择任务放置的文件夹。文件夹支持新增,可点击左侧任务列表上方的新建文件夹图标,新建文件夹;
-
实验描述:填写实验描述,不超过64个字符;

-
编辑可视化实验
实验画布创建后,进入左侧菜单栏组件菜单中,可将算法组件列表中的需要的组件拖拉拽至右侧的实验画布中,进行组件连接, 组成可视化的实验流程。
数据科学提供丰富的算法组件,包含数据源/目标、数据工具、数据合并、数据预处理、机器学习、预测、评估等多类组件,并不断丰富中。

-
配置组件参数
点击画布中的算法组件,在右侧面板组件参数中配置组件参数,具体组件的参数配置详见组件配置。若需要了解各组件 的介绍说明,可在右侧面板组件说明中查看。

-
配置任务调度属性
数据科学提供了丰富的时间周期和依赖关系支持,支持分钟、小时、天、周、月的任务跑批和模型训练,并支持跨周期依赖,请参考模型训练。
若需配置任务的调度属性,打开右侧调度周期面板,进行调度周期、生效时间、跨周期依赖方式的配置。
任务编写完成,并配置好调度属性、任务参数后,可进行实验提交或模型部署。
运行可视化实验
可视化实验流程搭建完成后,可进行实验运行,验证实验流程逻辑的正确性。
数据科学目前提供3种方式使任务中的代码对数据生效,页面直接运行、系统根据调度配置自动周期运行和补数据运行。
页面直接运行适用于即时查询,验证实验流程逻辑正确性。系统周期运行适用于实验逻辑已经过验证,进行定时的算法任务跑批或模型训练。补数据与离线计算开发的 场景一致,适用于数据源修改或代码任务发生修改时,重新跑数据的场景。下面重点说明页面直接运行的场景,系统自动周期运行与补数据运行在运维中心中 具体介绍。
-
页面直接运行实验
可视化实验搭建完成后,在操作区单击运行按钮触发任务运行,实验将从根节点按照流程执行,可根据节点状态判断组件运行情况,同时日志面板 中也会实时打印运行日志。
组件运行状态包含3种,1.运行成功、2.运行失败、3.运行中。当某个组件节点运行失败时,其下游节点也将不会被执行,整个实验也处于失败状态。

除实验整体运行外,也可右键单个组件,对单个组件进行操作。操作及释义如下:
操作 | 操作释义 | 备注 |
---|---|---|
重命名 |
对组件节点进行重命名,支持用户自定义 |
系统默认会按照"算法名称_拖拽顺序"命名节点名称 |
删除 |
删除当前节点 |
节点删除时,其组件参数配置将被删除。若节点运行成功过,其产生的数据表不会被删除 |
复制 |
复制当前节点,其组件参数配置也将被复制, |
|
从此处开始执行 |
执行此节点及其下游的组件节点 |
|
执行到此节点 |
从根节点开始运行实验,执行到当前节点 |
|
执行此节点 |
只执行当前节点 |
|
查看数据 |
查看当前节点运行结果,部分组件包含多个输出结果。 |
运行数据结果以表格的方式展现,支持下载 |
查看日志 |
查看当前节点本次运行的运行日志 |
日志过大时,支持用户下载日志文件 |
模型选项 |
查看模型的模型描述,后续支持查看模型输出、模型保存、模型导出等 |
只有机器学习模型、深度学习模型包含此操作 |
查看评估报告 |
查看评估模型的评估报告,不同的评估模型展示不同的指标及评估曲线 |
模型评估组件包含此操作 |

-
查看运行日志
实验开始运行后,编辑器下方会弹出运行日志面板,可查看具体运行日志,了解实验运行进度。
无论运行几次,日志页只有一个,仅显示最近一次触发运行日志的信息,之前的日志会被覆盖掉。
可右键单击某个组件,查看某组件运行的完整日志。
-
查看运行结果
实验的运行结果需在单个组件节点中查看,右键单击单个组件节点,点击查看数据结果查看每个节点的运行结果。
数据结果在页面展示时,只展示前100条数据,若要查询全部数据结果,可直接查询表。
实验提交
实验在页面运行成功,并配置好调度周期后,可单击操作区的部署-实验提交按钮进行可视化实验提交。实验提交运行的实际业务场景一般包含2种:
-
算法建模任务是一个业务场景作业,周期调度下定时将结果写入数据表中,结果数据表供业务的数据使用场景应用。
-
算法建模任务是一个模型训练作业,周期调度下训练模型参数,最终优质的模型参数可进行模型部署输出。
实验提交后将在运维中心—任务管理中产生一条任务记录,表示此任务已经进入任务运维阶段。除在数据科学的运维中心—任务管理产生一条任务记录外, 也会在离线计算中与数据科学同名项目下的运维中心—任务管理中产生一条任务记录。因为数据科学的任务调度依赖于离线计算模块,任务类型 为算法实验。
实验提交后,将按照配置的调度周期自动运行,会产生周期实例。每个任务产生的周期实例暂不支持在数据科学查看,需在离线计算中 与数据科学同名项目下的运维中心—周期实例中进行任务实例查看及运维。
周期实例及补数据实例的运维详见 运维中心。
冻结任务
如果需要让某个实验停止运行一段时间,可在右侧面板调度依赖勾选冻结,任务冻结后:
-
处于冻结状态的任务,周期实例依然会生成,但不会运行;
-
如果在离线计算中将算法任务配置成某个任务的上游,当算法任务处于冻结状态时,其下游任务也会进入"`冻结`"状态,下游任务的实例也会产生,但不会运行。下游任务的 执行日志将会打印出由于上游任务被冻结而没有执行的日志;
-
周期任务的冻结,第二天才会生效。若要重新运行任务,必须将实例解冻后,再单击重跑。如果需要紧急冻结任务,可以在周期实例中进行冻结操作。
依然可以对冻结状态的任务执行补数据,补数据实例会正常运行。 |