聚类

本页目录


Kmeans聚类

pipeline.mllib.cluster.kmeans_v2.KMeansV2Ai

image.png

组件说明:Kmeans聚类组件,以样本间距离为基础,将n个对象分为k个簇,使群体与群体之间的距离尽量大,而簇内具有较高的相似度。
组件输入:待聚类的数据表,和初始化质心参数(可选)。

组件输出:输出聚类数据结果表,聚类数据统计,聚类模型,聚类质心参数。

输入桩input

  • input1:输入待处理的数据表。

  • input2:初始化质心参数

输出桩output

  • output1:输出聚类数据结果表。

  • output2:输出聚类数据统计。

  • output3:输出聚类模型。

  • output4:输出聚类质心参数表。

字段设置

  • col: 特征列,必选,多选

  • append: 附加列,可选,多选

内存设置

  • 占用内存大小:可设置组件占用的内存大小,范围[256,64*1024]MB,默认512MB。

  • 并发数:可设置组件的并发数,范围[1,9999],默认为1,单线程运行。

模型参数setting

参数名称 参数描述 参数可选项 默认值

n_clusters

聚类中心数

[1, n_samples]

3

distance

度量方式

'euclidean'

'euclidean'

init

初始化聚类中心方法,如果选择’specify’时,第二个输入桩必须连接

('k-means++', 'random', 'first-k', 'uniform', 'specify')

'k-means++'

max_iter

最大迭代次数

[1, 1000]

100

tol

收敛标准

(0, +inf)

0.0001

random_state

随机数算子

[0, +inf)

0