聚类 聚类是一种无监督学习问题,它的目标就是基于相似度将相似的子集聚合在一起。聚类经常用于探索性研究或者作为分层有监督流程的一部分。 spark.mllib包中支持下面的模型。 k-means算法 GMM(高斯混合模型) PIC(快速迭代聚类) LDA(隐式狄利克雷分布) 二分k-means算法 流式k-means算法