Notebook概述

Notebook是一个交互式代码编辑器,可实现数据接入、数据清洗与转化、统计分析、机器学习、模型预测、模型评估等多种开发需求,为开发者提供灵活自由的开发 环境和操作体验。

任务类型

  • Python:数据科学的Notebook支持Python代码编写,支持Python3运行环境及代码语法,且平台已经内置了Python的依赖包、Scikit—​Learning算法包,可直接运行Python3代码。

  • Pyspark:支持Pyspark任务,支持Pyspark运行环境,并已内置SparkMLlib包,可运行Pyspark任务。

  • TensorFlow:支持TensorFlow1.x深度学习框架,可应用于各类机器学习算法实现,支持GPU运行;

  • Keras:支持Keras深度学习框架,可进行深度学习算法实现,支持GPU运行;

  • PyTorch:支持PyTorch深度学习框架,可进行深度学习算法实现,支持GPU运行;

开发流程

Notebook作业的开发流程如下图所示:

Notebook_Development-Notebook开发流程.png

任务运行说明

Notebook主要存在以下几种任务运行方式和目的。

操作 触发方式 运维中心是否有实例生成 调度属性情况 适用场景

代码直接运行

手动触发

无需配置调度

无需代码提交,适用于代码调试阶段

任务周期运行

系统触发

是,生成周期实例

受调度周期影响,任务周期运行

需要填写调度属性,提交任务。通过任务的周期运行,新的数据源产生新的算法数据结果,可周期性输出算法结果。任务的离线运行也用来进行模型训练,生成好的模型参数与结果,后续进行模型部署。