Hierarchical Clustering 层次聚类

从下至上的层次聚类:

  1. 初始时,每一个数据点单独构成一个聚集
  2. 不断地将最近的两个聚集合并

需要决定:

  1. 聚集之间的距离度量
  2. 定义聚集合并后如何表示
  3. 何时停止聚类

常见方法:

  • 用中心点表示聚集,中心点与聚集内各个节点“最近”(平均距离最小、最大距离最小,距离的平方和最小等等)
  • 用聚集于聚集的中心点之间的距离表示聚集之间的距离

例子:

6个数据点:(1,2),(2,1),(0,0),(5,3),(5,0),(4,1)

输出的是每一轮合并聚集后,新聚集内包括的数据点

scipy中有层次聚类,对例子数据的聚类结果与上面一直。

figure_1

聚类的终止标准:

  1. 预先设定聚集数量k,一旦形成k个聚集就停止
  2. 当新生成的聚集的“凝聚力”(cohesion)小于阈值

凝聚力:

  1. 聚集的直径 = 全局中节点之间的最大距离
  2. 聚集内节点与中心点之间的距离超过预先设定的最大值
  3. 聚集内的节点密度大于预先设定值

 

2 thoughts on “Hierarchical Clustering 层次聚类

Leave a Reply

Your email address will not be published. Required fields are marked *