层次聚类算法原理及Python实现

2024-08-20 20:28

本文主要是介绍层次聚类算法原理及Python实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

层次聚类算法(Hierarchical Clustering Method)是一种基于簇间相似度在不同层次上分析数据,从而形成树形聚类结构的算法。它主要分为两种形式:凝聚层次聚类(自下而上)和分裂层次聚类(自上而下)。以下将详细介绍凝聚层次聚类的原理与步骤:

一、原理

凝聚层次聚类算法的基本思想是将每个样本点视为一个单独的簇,然后在算法运行的每一次迭代中找出相似度最高的两个簇进行合并,这个过程不断重复,直到达到预设的簇类个数K或只剩下一个簇。

在层次聚类中,簇间的相似度通常通过距离来度量,距离越小表示相似度越高。常用的距离度量方法包括欧氏距离、曼哈顿距离、切比雪夫距离等。

二、步骤

  1. 初始化:将每个样本点视为一个独立的簇。

  2. 计算相似度:计算所有簇之间的相似度(或距离)。这一步通常生成一个相似度矩阵(或距离矩阵),其中矩阵的元素表示对应簇之间的相似度(或距离)。

  3. 合并簇:找出相似度最高(或距离最小)的两个簇,将它们合并为一个新的簇。同时,更新相似度矩阵,以反映新簇与其他簇之间的相似度(或距离)。

  4. 重复合并:重复步骤2和步骤3,直到达到预设的簇类个数K或只剩下一个簇。在每一步中,都需要重新计算并更新相似度矩阵。

  5. 生成聚类结果:根据最终的簇结构,将样本点分配到相应的簇中,形成聚类结果。

三、优缺点

优点

  • 不需要预先指定簇的数量,可以通过观察聚类树状图来决定簇的数量。
  • 可以发现不同层次上的簇结构,有助于更深入地理解数据。

缺点

  • 计算复杂度较高,特别是当样本点数量较多时。
  • 合并或拆分的决策一旦作出,就不能撤销,这可能导致聚类结果对初始条件敏感。

四、优化方法

为了降低层次聚类算法的计算复杂度,可以采用一些优化方法,如:

  • 使用连通性约束来减少需要计算相似度的簇对数量。
  • 利用并行计算技术来加速算法的执行。

总的来说,层次聚类算法是一种灵活且强大的聚类方法,适用于探索性数据分析和复杂数据集的聚类任务。

五、Python实现

在Python中,实现层次聚类算法通常可以使用scipy库中的linkage函数和fcluster函数,它们提供了层次聚类的核心功能。不过,需要注意的是,scipy直接提供的是层次聚类的计算部分,而聚类结果的可视化(如树状图或称为树状结构图,dendrogram)则可能需要借助matplotlibscipy.cluster.hierarchy模块的其他函数。

以下是一个使用scipy进行层次聚类的基础示例,包括计算层次聚类的结果并绘制树状图:

import numpy as np
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage
from scipy.spatial.distance import pdist

# 示例数据
X = np.array([[1, 2], [1, 4], [1, 0],
              [4, 2], [4, 0], [4, 4],
              [4, 5], [0, 1], [2, 2],
              [3, 3], [5, 5]])

# 计算所有点之间的欧氏距离
Y = pdist(X, 'euclidean')

# 使用linkage函数进行层次聚类,method='ward'表示最小方差法
Z = linkage(Y, 'ward')

# 绘制树状图
plt.figure(figsize=(10, 7))
dendrogram(Z, labels=range(1, len(X) + 1))
plt.xlabel('Sample index')
plt.ylabel('Distance')
plt.title('Dendrogram')
plt.show()

# 如果需要按照一定的簇数量进行切割,可以使用fcluster
from scipy.cluster.hierarchy import fcluster

# 假设我们想要得到3个簇
max_d = 3  

# 这里的max_d并不是直接的簇数量,而是用于fcluster的一个阈值参数
# 对于'ward'方法,通常使用'maxclust'参数来指定簇的数量,但这里为了演示fcluster的用法,我们仍然使用阈值
# 注意:对于'ward'方法,使用fcluster的'maxclust'参数可能更直接
clusters = fcluster(Z, max_d, criterion='distance')

# 打印聚类结果
print("Cluster memberships:", clusters)

# 注意:由于我们是用阈值来划分簇的,这可能导致簇的数量不等于max_d
# 如果想要精确控制簇的数量,应该使用'maxclust'参数(但'ward'方法可能不直接支持)
# 或者,可以先观察树状图,然后选择一个合适的阈值

重要说明

  1. 在上面的代码中,linkage函数的method参数设置为'ward',它代表Ward最小方差法,这是一种常用的层次聚类方法。但是,fcluster函数中的criterion='distance'并不是与'ward'方法直接对应的最佳方式,因为'ward'方法更适合使用criterion='maxclust'(尽管scipy的当前版本中fcluster可能不直接支持'ward''maxclust'的组合)。然而,为了演示fcluster的用法,我们还是使用了'distance'作为示例。

  2. 在实际应用中,你可能需要根据树状图的形状和你对数据的理解来选择一个合适的阈值或簇的数量。

  3. 如果你确实需要按照簇的数量来切割树状图,并且你的scipy版本不支持criterion='maxclust''ward'方法的组合,你可能需要手动选择一个阈值,或者寻找其他支持这种功能的库(如scikit-learn中的层次聚类实现,尽管它可能不完全相同)。但是,请注意,scikit-learn的层次聚类实现可能更注重于凝聚层次聚类,并且可能不提供与scipy相同的所有功能。

运行结果:

Cluster memberships: [4 4 3 2 2 1 1 3 4 2 1]

这篇关于层次聚类算法原理及Python实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1091094

相关文章

Django开发时如何避免频繁发送短信验证码(python图文代码)

《Django开发时如何避免频繁发送短信验证码(python图文代码)》Django开发时,为防止频繁发送验证码,后端需用Redis限制请求频率,结合管道技术提升效率,通过生产者消费者模式解耦业务逻辑... 目录避免频繁发送 验证码1. www.chinasem.cn避免频繁发送 验证码逻辑分析2. 避免频繁

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

精选20个好玩又实用的的Python实战项目(有图文代码)

《精选20个好玩又实用的的Python实战项目(有图文代码)》文章介绍了20个实用Python项目,涵盖游戏开发、工具应用、图像处理、机器学习等,使用Tkinter、PIL、OpenCV、Kivy等库... 目录① 猜字游戏② 闹钟③ 骰子模拟器④ 二维码⑤ 语言检测⑥ 加密和解密⑦ URL缩短⑧ 音乐播放

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买