模型选择

本页目录


拆分

pipeline.preprocessing.data_split_v2.DataSplitV2Ai

iamge.png

组件说明:拆分组件,将原有数据按照比例进行随机拆分,最终输出两张表,主要用于生成训练集或测试集。
组件输入:待拆分的训练数据集

组件输出:拆分后的数据表1和数据表2,即训练集和测试集

输入桩input

  • input1:输入待拆分的数据集表。

输出桩output

  • output1:输出拆分后的数据表1。

  • output2:输出拆分后的数据表2。

字段设置

  • split_type: 切分类型,1是按比例切,2是按阈值切

  • split_percent: 切分比例,如果选择按比例切,此项必填,范围(0,1.0)

  • random_seed:随机数算子,默认值1

  • threshold_col: 如果按阈值切,此项必填,阈值所属的列

  • threshold: 如果按阈值切,此项必填,阈值的值

  • operator: 如果按阈值切,此项必填,与阈值比较的操作

内存设置

  • 占用内存大小:可设置组件占用的内存大小,范围[256,64*1024]MB,默认512MB。

  • 并发数:可设置组件的并发数,范围[1,9999],默认为1,单线程运行。**