5. Part III – 密度、概率与谱聚类方法

本节将聚焦于传统划分法(如 K‑Means)与层次法难以应对的几类数据结构,例如非凸簇、不同密度、孤立点及概率混合结构,并介绍如何在 MATLAB 中使用 DBSCAN 与 GMM 方法进行处理。


5. Part III – 密度、概率与谱聚类方法

在实际科研数据中,样本往往不服从高斯分布,簇形状可能是环状、条状、双月型,或者存在较强局部密度梯度。在这种背景下,密度驱动方法(如 DBSCAN)、概率生成模型(如 GMM)以及图谱类方法(如谱聚类)为研究者提供了更具弹性的解决方案。

本节主要介绍两类代表方法:DBSCAN(基于密度)GMM(基于概率)


5.1 DBSCAN:基于密度的簇检测与离群识别

① 算法核心原理

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)依靠两个关键参数:

  • ε(epsilon):定义邻域半径;
  • minPts:构成“核心点”所需的最小邻居数量。

其主要优势包括:

  • 可识别任意形状的簇;
  • 可检测离群点(即不属于任何簇的噪声);
  • 不需要预先设定簇数。

② MATLAB 实现

% 设置DBSCAN参数
epsilon = 0.9;      % 邻域半径(需调参)
minPts  = 5;        % 最小邻居数

% 执行DBSCAN
labels_db = dbscan(X, epsilon, minPts);

% 可视化聚类结果(主成分空间中)
[~, score] = pca(X);
figure;
gscatter(score(:,1), score(:,2), labels_db, 'rgbk', 'o', 6);
xlabel('PC1'); ylabel('PC2');
title(['DBSCAN 聚类结果 (ε = ' num2str(epsilon) ', minPts = ' num2str(minPts) ')']);
grid on;

其中 labels_db == -1 表示被判定为离群点的样本。为选定合理的 ε 值,推荐绘制 k‑Distance 图(略)。


5.2 GMM:基于概率的软划分方法

① 算法核心原理

GMM(Gaussian Mixture Model)将样本视为由 KK 个高斯分布成分混合而成,每个样本属于每个簇的概率由后验分布计算得出。与 K‑Means 的硬划分不同,GMM 提供 软分配(soft assignment),适合含有边界不清、重叠区域的数据。

模型训练采用 EM 算法迭代更新簇权重、均值与协方差矩阵。

② MATLAB 实现

% 拟定GMM的簇数(如3)
gm = fitgmdist(X, 3, 'CovarianceType', 'full', ...
    'RegularizationValue', 1e-5, ...
    'Replicates', 10, ...
    'Options', statset('Display','final'));

% 对每个样本预测其所属簇(最大后验)
labels_gmm = cluster(gm, X);

% 可视化结果
figure;
gscatter(score(:,1), score(:,2), labels_gmm, 'rgb', 'o', 6);
xlabel('PC1'); ylabel('PC2');
title('GMM 聚类结果(软划分)');
grid on;

GMM 还能提供后验概率矩阵 posterior,用于评估每个样本属于各簇的不确定度:

% 每个样本属于3个簇的概率
P = posterior(gm, X);  % P(i,j): 第i个样本属于第j簇的概率

方法选择与比较

特征 K‑Means DBSCAN GMM
簇形状 近球形 任意形状 椭圆形(高斯假设)
簇数预设 否(自动)
离群点识别
边界模糊处理 否(硬划分) 是(通过边界区域) 是(提供软概率)
适用数据类型 中等规模,均匀分布 小中规模,有密度结构 样本数较大,混合分布假设

小贴士:DBSCAN 的 ε 值非常敏感,建议使用 k‑distance 图(第 k 近邻距离 vs 样本排序)确定转折点作为初步估计。


小结与过渡

本节展示了两类非划分式聚类方法在 MATLAB 中的应用,分别适用于非凸形结构检测(DBSCAN)与复杂边界建模(GMM)。若样本量适中、分布结构复杂或存在离群点,这些方法相比 K‑Means 和层次聚类更具鲁棒性与适应性。

下一节我们将系统讨论聚类结果的评估指标与诊断手段,包括轮廓系数、Calinski–Harabasz、Adjusted Rand Index、NMI 等评价标准,并讨论如何基于这些指标判断聚类效果的稳定性与科学合理性。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇