特征工程

算法开发平台建模方式分为2种:
* 可视化实验建模:组件拖拉拽可视化建模;
* Notebook建模:代码式建模,支持Python、PySpark、TensorFlow1.X、Keras、PyTorch任务类型;

可视化建模

步骤一: 进入算法实验导航,点击左侧实验TAB,新建一个可视化实验。同时,实验演示的文件夹下有预置实验模板HeartDisease_PredictionShop_Cluster,可进行参考,本次示例以Shop_Cluster(门店聚类)模型为例;
步骤二: 打开左侧组件TAB,选择合适的算法组件,拖拉拽至右侧实验画板中,组成实验流程,特征工程部分如下;

快速入门 特征工程
  • 读数据:通过读数据组件,将数据源读入进来。门店聚类实验读取的是门店基础信息,包含门店id,门店类型、门店大小、男女顾客分布、门店地理位置等信息。

  • 数据处理与分析:可通过SQL脚本、Python脚本等组件进行数据预处理,以及通过表信息统计、T检验、皮尔森系数等组件进行数据分析。

  • 特征工程:进行特征选择或特征处理,确定模型特征。通过onehot编码、归一化、PCA主成分分析等组件,进行数据编码、线性归一化处理、数据降维等处理,得出主要特征

快速入门 特征工程 PCA
Flower

步骤三:运行实验中的流程,查看数据处理结果;

2020 09 03 16 58 08
2020 09 03 17 00 14

步骤四:继特征工程后,进入模型搭建,进行训练与预测,请查看下一章节。

Notebook建模

步骤一: 进入算法实验导航,点击左侧NotebookTAB,新建一个Notebook,选择相应的任务类型。同时,Notebook演示文件夹下有预置模板,可进行参考;
步骤二: 开始代码编写,以随机森林(RandomForest)建模为例;+ image::快速入门-Notebook建模-随机森林.png[] 步骤三: 继特征工程后,继续输出模型建模部分,请查看下一章节。