模型选择
拆分
pipeline.preprocessing.data_split_v2.DataSplitV2Ai

组件说明:拆分组件,将原有数据按照比例进行随机拆分,最终输出两张表,主要用于生成训练集或测试集。
组件输入:待拆分的训练数据集
组件输出:拆分后的数据表1和数据表2,即训练集和测试集
输入桩input
-
input1:输入待拆分的数据集表。
输出桩output
-
output1:输出拆分后的数据表1。
-
output2:输出拆分后的数据表2。
字段设置
-
split_type: 切分类型,1是按比例切,2是按阈值切
-
split_percent: 切分比例,如果选择按比例切,此项必填,范围(0,1.0)
-
random_seed:随机数算子,默认值1
-
threshold_col: 如果按阈值切,此项必填,阈值所属的列
-
threshold: 如果按阈值切,此项必填,阈值的值
-
operator: 如果按阈值切,此项必填,与阈值比较的操作
内存设置
-
占用内存大小:可设置组件占用的内存大小,范围[256,64*1024]MB,默认512MB。
-
并发数:可设置组件的并发数,范围[1,9999],默认为1,单线程运行。**