Skip to content

Latest commit

 

History

History
15 lines (10 loc) · 788 Bytes

README.md

File metadata and controls

15 lines (10 loc) · 788 Bytes

聚类算法

聚类是一种任务,其希望通过一些手段将数据分成不同的聚类(或者说组),而这些聚类满足:

  • 聚类内相似度高
  • 聚类外相似度低

不严谨地说,其是在寻找物体之间自然的分组。

聚类通常有很多角度,例如对于一群人,我们可以根据职业进行聚类,也可以根据性别进行聚类。这些都是不同的聚类角度。

聚类算法是指解决聚类任务的算法。 通常来说,其为非监督学习。

通常来说在给定数据集 $\mathcal{D} = {\mathbf{x}_1, \mathbf{x}_2,..., \mathbf{x}_N}$
定义不同数据点的距离为 $\text{dist}(\mathbf{x}, \mathbf{z})$(即两个不同数据点的相似度)
我们的目标是将这些数据点划分为 $K$ 组。