层次聚类

概述

层次聚类（Hierarchical Clustering）是一种用于构建数据点的层级结构的聚类算法。它通过逐步地将最相似的数据点合并到一起，或者从一个包含所有数据点的簇开始，递归地将其分割成更小的簇，最终形成一个树状的聚类模型，通常被称为树状图（Dendrogram）。与k-means聚类等划分式聚类方法不同，层次聚类不需要预先指定簇的数量，而是可以根据树状图选择合适的聚类层级。层次聚类广泛应用于生物学分类、图像分割、文本聚类等领域，是数据挖掘的重要技术之一。其核心思想在于构建一个代表数据点之间相似性的层次结构，从而揭示数据内在的组织模式。

层次聚类可以分为两种主要类型：凝聚型层次聚类（Agglomerative Hierarchical Clustering）和分裂型层次聚类（Divisive Hierarchical Clustering）。凝聚型层次聚类从每个数据点作为一个单独的簇开始，然后逐步将最相似的簇合并，直到所有数据点都属于一个簇。分裂型层次聚类则从一个包含所有数据点的簇开始，然后递归地将其分割成更小的簇，直到每个数据点都成为一个单独的簇。在实际应用中，凝聚型层次聚类更为常见，因为它通常比分裂型层次聚类更有效率。

主要特点

层次聚类具有以下关键特点：

*无需预先指定簇的数量：* 算法可以自动确定最佳的聚类数量，无需像k-means那样需要预先设定k值。
*提供树状图可视化：* 树状图能够清晰地展示数据点的聚类过程和不同层级的聚类结果，方便用户进行分析和选择。
*对异常值不敏感：* 层次聚类对异常值（异常检测）的敏感度相对较低，因为异常值通常会在聚类的早期阶段就被隔离出来。
*可以处理不同形状的簇：* 层次聚类能够识别出不同形状和大小的簇，而不仅仅是球形的簇，这使得它在处理复杂数据集时更具优势。
*计算复杂度较高：* 层次聚类的计算复杂度通常较高，特别是对于大型数据集，可能会导致算法运行时间过长。常见的复杂度为O(n^3)，其中n为数据点的数量。
*对数据顺序敏感：* 凝聚型层次聚类的结果可能受到数据点顺序的影响，因此在实际应用中需要对数据进行预处理，例如标准化或归一化。
*可解释性强：* 树状图的可视化结果易于理解和解释，能够帮助用户更好地理解数据的结构和关系。
*可以利用不同的连接方法：* 层次聚类可以使用不同的连接方法（连接方法）来计算簇之间的距离，例如单连接、全连接、平均连接、Ward连接等，不同的连接方法会产生不同的聚类结果。
*适用于小规模数据集：* 由于计算复杂度较高，层次聚类更适合处理小规模数据集。对于大规模数据集，可以考虑使用其他聚类算法，例如k-means或DBSCAN。
*可以与其他聚类算法结合使用：* 层次聚类可以与其他聚类算法结合使用，例如先使用k-means进行预聚类，然后再使用层次聚类对预聚类结果进行精细化处理。

使用方法

以下是使用凝聚型层次聚类进行数据聚类的详细步骤：

1. **数据准备：** 首先，需要准备好需要进行聚类的数据集。数据集中包含多个数据点，每个数据点由多个特征组成。对数据进行预处理，例如缺失值处理、异常值处理、数据标准化或归一化。 2. **选择距离度量：** 选择合适的距离度量（距离度量）来计算数据点之间的相似性。常用的距离度量包括欧氏距离、曼哈顿距离、余弦相似度等。距离度量的选择取决于数据的类型和特征。 3. **选择连接方法：** 选择合适的连接方法来计算簇之间的距离。常用的连接方法包括单连接（Single Linkage）、全连接（Complete Linkage）、平均连接（Average Linkage）、Ward连接等。不同的连接方法会产生不同的聚类结果。 4. **初始化：** 将每个数据点视为一个单独的簇。 5. **迭代合并：** 循环执行以下步骤，直到所有数据点都属于一个簇：

   *   计算所有簇之间的距离。
   *   选择距离最近的两个簇。
   *   将这两个簇合并成一个新的簇。

6. **构建树状图：** 在每次合并簇的过程中，记录下合并的簇和合并的距离，并将其添加到树状图中。 7. **选择聚类层级：** 根据树状图选择合适的聚类层级。可以通过设置簇的数量或距离阈值来确定聚类层级。 8. **获取聚类结果：** 根据选择的聚类层级，将数据点分配到不同的簇中，从而得到最终的聚类结果。

以下是一个展示凝聚型层次聚类的过程的MediaWiki表格：

凝聚型层次聚类过程示例
步骤 \|!\| 数据点 \|!\| 簇 \|!\| 距离 \|!\| 操作
A, B, C, D, E \| A, B, C, D, E \| - \| 初始化
A, B, C, D, E \| A, B, C, D, E \| 2.0 \| 合并A和B
(AB), C, D, E \| (AB), C, D, E \| 3.5 \| 合并(AB)和C
((AB)C), D, E \| ((AB)C), D, E \| 4.0 \| 合并((AB)C)和D
(((AB)C)D), E \| (((AB)C)D), E \| 5.0 \| 合并(((AB)C)D)和E

立即开始交易

注册IQ Option (最低入金 $10) 开设Pocket Option账户 (最低入金 $5)

加入我们的社区

关注我们的Telegram频道 @strategybin，获取： ✓ 每日交易信号 ✓ 独家策略分析 ✓ 市场趋势警报 ✓ 新手教学资料

层次聚类

Contents

概述

主要特点

使用方法

相关策略

立即开始交易

加入我们的社区

Navigation menu