创建项目
前期准备
创建项目前,需在控制台的集群配置页面:
1. 创建集群;
2. 配置集群中HDFS、Hive、DTScript等组件等组件信息;
3. 为相应租户绑定资源队列;
一般部署环节运维人员会配置好,配置完成后,进入算法开发产品,开始算法建模
开始创建流程
进入产品首页,点击创建项目按钮,进入创建项目流程
-
基础信息
-
项目名称:项目标识,每个项目唯一,也作为该项目对应Hive库的库名称,填写后后续不能更改;
-
项目显示名称:项目中文名,作为项目的显示名,后续可修改;
-
项目描述:填写项目描述信息;
-
-
高级配置
-
启动周期配置:默认选择启动,启动后,算法任务可根据调度周期进行模型训练;
-
启动JupyterLab:默认选择启动,每个项目对应一个JupyterLab环境,启动后可在JupyterLab中进行数据分析,并可在项目管理中的项目配置页面进行资源配置;
-
-
计算引擎配置
目前算法开发只支持Hadoop引擎,但创建项目时包含2种方式:+-
初始化创建:系统会根据用户填写的项目名称、标识创建一个新项目,且会创建一个Hive库,作为该项目的读写数据源。
-
对接已有SparkThriftServer:对接已有的Hive库作为该项目的读写数据源,可以为开源Hadoop的Hive库,亦或是CDH、TDH的Hive库。 NOTE: 常使用的创建方式为"对接已有SparkThriftServer",可将离线计算的Hive库接入,算法开发便可直接读取离线ETL处理后的数据表进行数据建模,与离线的数据存储在一个数据库中,方便使用。
-