创建项目

前期准备

创建项目前,需在控制台集群配置页面:
1. 创建集群;
2. 配置集群中HDFS、Hive、DTScript等组件等组件信息;
3. 为相应租户绑定资源队列;
一般部署环节运维人员会配置好,配置完成后,进入算法开发产品,开始算法建模

开始创建流程

进入产品首页,点击创建项目按钮,进入创建项目流程

  • 基础信息

    • 项目名称:项目标识,每个项目唯一,也作为该项目对应Hive库的库名称,填写后后续不能更改;

    • 项目显示名称:项目中文名,作为项目的显示名,后续可修改;

    • 项目描述:填写项目描述信息;

  • 高级配置

    • 启动周期配置:默认选择启动,启动后,算法任务可根据调度周期进行模型训练;

    • 启动JupyterLab:默认选择启动,每个项目对应一个JupyterLab环境,启动后可在JupyterLab中进行数据分析,并可在项目管理中的项目配置页面进行资源配置;

  • 计算引擎配置
    目前算法开发只支持Hadoop引擎,但创建项目时包含2种方式:+

    • 初始化创建:系统会根据用户填写的项目名称、标识创建一个新项目,且会创建一个Hive库,作为该项目的读写数据源。

    • 对接已有SparkThriftServer:对接已有的Hive库作为该项目的读写数据源,可以为开源Hadoop的Hive库,亦或是CDH、TDH的Hive库。 NOTE: 常使用的创建方式为"对接已有SparkThriftServer",可将离线计算的Hive库接入,算法开发便可直接读取离线ETL处理后的数据表进行数据建模,与离线的数据存储在一个数据库中,方便使用。