聚类是无监督学习:将数据对象划分为多个组 (簇),使得:

  • 簇内相似度高 (Intra-class similarity is high)
  • 簇间相似度低 (Inter-class similarity is low)

主要方法

  1. 划分法:K-Means,K-Medoids
  2. 层次法:Agglomerative (凝聚),Divisive (分裂)
  3. 基于密度:DBSCAN (能发现任意形状簇)

距离度量

  • 欧氏距离 Euclidean 最常用。
  • 对于二元变量,可用 Jaccard 系数。

# K-Means 算法

输入: K (簇的数量)
步骤:

  1. 初始化:随机选择 K 个点作为初始质心 (Centroids)。
  2. 分配:计算每个点到 K 个质心的距离,将其分配给最近的质心。
  3. 更新:重新计算每个簇的平均值,作为新质心。
  4. 迭代:重复 2-3 步,直到质心不再变化或达到最大迭代次数。

缺点:

  1. 需预设 K;
  2. 对初始值敏感;
  3. 对离群点敏感;
  4. 只能发现球状簇。

# 聚类评估

肘部法则 (Elbow Method):
绘制 SSE (簇内误差平方和) 随 K 变化的曲线。选择下降幅度骤减的转折点。

# 层次聚类 (凝聚型)

策略:自底向上。开始每个点是簇,每次合并最近的两个。

簇间距离定义:

  • 单链接 (Min): 最近点距离 (易链状)
  • 全链接 (Max): 最远点距离 (抗噪)
  • 平均链接 (Avg): 所有点对平均
更新于

请我喝[茶]~( ̄▽ ̄)~*

梦前辈 微信支付

微信支付

梦前辈 支付宝

支付宝