本节将聚焦于传统划分法(如 K‑Means)与层次法难以应对的几类数据结构,例如非凸簇、不同密度、孤立点及概率混合结构,并介绍如何在 MATLAB 中使用 DBSCAN 与 GMM 方法进行处理。
5. Part III – 密度、概率与谱聚类方法
在实际科研数据中,样本往往不服从高斯分布,簇形状可能是环状、条状、双月型,或者存在较强局部密度梯度。在这种背景下,密度驱动方法(如 DBSCAN)、概率生成模型(如 GMM)以及图谱类方法(如谱聚类)为研究者提供了更具弹性的解决方案。
本节主要介绍两类代表方法:DBSCAN(基于密度) 与 GMM(基于概率)。
5.1 DBSCAN:基于密度的簇检测与离群识别
① 算法核心原理
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)依靠两个关键参数:
ε
(epsilon):定义邻域半径;minPts
:构成“核心点”所需的最小邻居数量。
其主要优势包括:
- 可识别任意形状的簇;
- 可检测离群点(即不属于任何簇的噪声);
- 不需要预先设定簇数。
② MATLAB 实现
% 设置DBSCAN参数
epsilon = 0.9; % 邻域半径(需调参)
minPts = 5; % 最小邻居数
% 执行DBSCAN
labels_db = dbscan(X, epsilon, minPts);
% 可视化聚类结果(主成分空间中)
[~, score] = pca(X);
figure;
gscatter(score(:,1), score(:,2), labels_db, 'rgbk', 'o', 6);
xlabel('PC1'); ylabel('PC2');
title(['DBSCAN 聚类结果 (ε = ' num2str(epsilon) ', minPts = ' num2str(minPts) ')']);
grid on;
其中 labels_db == -1
表示被判定为离群点的样本。为选定合理的 ε 值,推荐绘制 k‑Distance 图(略)。
5.2 GMM:基于概率的软划分方法
① 算法核心原理
GMM(Gaussian Mixture Model)将样本视为由 KK 个高斯分布成分混合而成,每个样本属于每个簇的概率由后验分布计算得出。与 K‑Means 的硬划分不同,GMM 提供 软分配(soft assignment),适合含有边界不清、重叠区域的数据。
模型训练采用 EM 算法迭代更新簇权重、均值与协方差矩阵。
② MATLAB 实现
% 拟定GMM的簇数(如3)
gm = fitgmdist(X, 3, 'CovarianceType', 'full', ...
'RegularizationValue', 1e-5, ...
'Replicates', 10, ...
'Options', statset('Display','final'));
% 对每个样本预测其所属簇(最大后验)
labels_gmm = cluster(gm, X);
% 可视化结果
figure;
gscatter(score(:,1), score(:,2), labels_gmm, 'rgb', 'o', 6);
xlabel('PC1'); ylabel('PC2');
title('GMM 聚类结果(软划分)');
grid on;
GMM 还能提供后验概率矩阵 posterior
,用于评估每个样本属于各簇的不确定度:
% 每个样本属于3个簇的概率
P = posterior(gm, X); % P(i,j): 第i个样本属于第j簇的概率
方法选择与比较
特征 | K‑Means | DBSCAN | GMM |
---|---|---|---|
簇形状 | 近球形 | 任意形状 | 椭圆形(高斯假设) |
簇数预设 | 是 | 否(自动) | 是 |
离群点识别 | 否 | 是 | 否 |
边界模糊处理 | 否(硬划分) | 是(通过边界区域) | 是(提供软概率) |
适用数据类型 | 中等规模,均匀分布 | 小中规模,有密度结构 | 样本数较大,混合分布假设 |
小贴士:DBSCAN 的
ε
值非常敏感,建议使用 k‑distance 图(第 k 近邻距离 vs 样本排序)确定转折点作为初步估计。
小结与过渡
本节展示了两类非划分式聚类方法在 MATLAB 中的应用,分别适用于非凸形结构检测(DBSCAN)与复杂边界建模(GMM)。若样本量适中、分布结构复杂或存在离群点,这些方法相比 K‑Means 和层次聚类更具鲁棒性与适应性。
下一节我们将系统讨论聚类结果的评估指标与诊断手段,包括轮廓系数、Calinski–Harabasz、Adjusted Rand Index、NMI 等评价标准,并讨论如何基于这些指标判断聚类效果的稳定性与科学合理性。