7~8. 进阶话题 & 案例
面对高维、多类型或时序样本,应结合降维、DTW 或 Gower 距离等技术提升聚类适应性与可解释性。
|
50
|
|
1166 字
|
5 分钟
6. 评估与诊断:如何判断聚类是否“合理”?
通过轮廓系数、Calinski–Harabasz 指数、Adjusted Rand Index 等多维度指标综合判断聚类效果的合理性与稳健性。
|
54
|
|
1144 字
|
6 分钟
5. Part III – 密度、概率与谱聚类方法
密度法与生成模型可有效处理非凸簇、重叠样本和离群点,为复杂空间结构提供更高弹性的划分能力。
|
36
|
|
932 字
|
6 分钟
4. Part II – 层次聚类:树状图构建与多尺度结构识别
层次聚类通过构建样本的嵌套式合并关系揭示多尺度结构,适合解释亲缘性与生态演替过程。
|
36
|
|
898 字
|
5 分钟
3. Part I – K‑Means 聚类分析
K‑Means 基于最小化簇内平方差高效划分球状结构样本,是聚类任务中的入门方法与性能基线。
|
38
|
|
1050 字
|
8 分钟
2. 数据准备:先洗澡、再聚
聚类结果高度依赖数据质量,需通过标准化、异常值剔除和降维操作确保距离度量的有效性和稳定性。
|
38
|
|
646 字
|
5 分钟
1. 动机:为什么“让数据自己分组”?
聚类分析在无标签大数据背景下提供了一种揭示样本潜在结构和系统异质性的基本方法
|
46
|
|
1441 字
|
6 分钟