聚类
Kmeans聚类
pipeline.mllib.cluster.kmeans_v2.KMeansV2Ai

组件说明:Kmeans聚类组件,以样本间距离为基础,将n个对象分为k个簇,使群体与群体之间的距离尽量大,而簇内具有较高的相似度。
组件输入:待聚类的数据表,和初始化质心参数(可选)。
组件输出:输出聚类数据结果表,聚类数据统计,聚类模型,聚类质心参数。
输入桩input
-
input1:输入待处理的数据表。
-
input2:初始化质心参数
输出桩output
-
output1:输出聚类数据结果表。
-
output2:输出聚类数据统计。
-
output3:输出聚类模型。
-
output4:输出聚类质心参数表。
字段设置
-
col: 特征列,必选,多选
-
append: 附加列,可选,多选
内存设置
-
占用内存大小:可设置组件占用的内存大小,范围[256,64*1024]MB,默认512MB。
-
并发数:可设置组件的并发数,范围[1,9999],默认为1,单线程运行。
模型参数setting
参数名称 | 参数描述 | 参数可选项 | 默认值 |
---|---|---|---|
n_clusters |
聚类中心数 |
[1, n_samples] |
3 |
distance |
度量方式 |
'euclidean' |
'euclidean' |
init |
初始化聚类中心方法,如果选择’specify’时,第二个输入桩必须连接 |
('k-means++', 'random', 'first-k', 'uniform', 'specify') |
'k-means++' |
max_iter |
最大迭代次数 |
[1, 1000] |
100 |
tol |
收敛标准 |
(0, +inf) |
0.0001 |
random_state |
随机数算子 |
[0, +inf) |
0 |