集成聚类之EAC算法(证据积累数据聚类)附:单连接(SL)易理解详谈

2023-11-05 20:41

本文主要是介绍集成聚类之EAC算法(证据积累数据聚类)附:单连接(SL)易理解详谈,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

       最近要写论文涉及到聚类集成,想先从EAC做起,集成方面做得还不是很好。如果有机会的话,希望也在研究集成聚类的大佬们和我联系,一起研究探讨集成聚类这方面的知识。感谢各位!

   

       证据积累的想法是这样的:将每个聚类结果作为数据组织独立的证据,把多个聚类的结果合并到一个分区中。

 

方法为拆分合并:

(1)拆分:把大型的多维数据分成小型的球型簇。

                    使用K-Means算法执行此步骤,因为通过K的随机初始化,可以获得各种聚类结果。

(2)结合:为将不同数目的聚类分区并到一块,使用“投票法”合并聚类的结果。

         那么肯定会有这么一种可能,“自然”产生的集群可能在不同集群下的统一集群(不同的划分,做出一个邻近度矩阵)          

         在同一个集群下模式对的同时出现做一个投票标记给关联上。做一个矩阵co-assocation(i,j)=\frac{votes_{ij}}{N}

         N是聚类的数目,votes_{ij}是ij对,被分配给N个聚类数中相同聚类的次数。

(3)合并:恢复自然簇,根据邻域关系,用MST算法(最小生成树),用t的阙值切断弱连接,这句话说的专业一点就是用阙值t在相似性矩阵上切割单连接(SL)生成的树状图,来合并拆分阶段生成的簇。

补充

          1.MST(最小生成树):学过数据结构的一定都会,包括解决方法两种,克鲁斯卡尔和普利姆算法,很简单,如果有忘记的朋友们可以自行复习一下。

          2.那么什么是单连接(SL)呢?:单连接和全连接都是由(2)的邻近度矩阵所出现的。

                                                                 单连接是作用于阙值图的

(阙值图是N个节点的无向图,每个节点都是一个对象,图中不存在环和多重边。用G(v)表示,v表示不相似的程度。给一个v,如果节点i和j之间的不相似度小于v,就在i和j之间插入一条边edge(i,j)。)

例:邻近度矩阵:D=\begin{Bmatrix} 0\, \, 0\, \, 0\, \, 2\, \,0\\ 0\, \, 0\, \, 1\, \, 5\, \, 3\\ 0\, \, 1\, \, 0\, \, 0\, \, 0\\ 2\, \, 5\, \, 0\, \, 0\, \, 4\\ 0\, \, 3\, \, 0\, \, 4\, \, 0 \end{Bmatrix}设定邻近度为5

(1)G(0):刚开始都是点,没有边,每个点都是一个簇,有n个点就是有n个簇。

(2)G(1):根据邻近度矩阵,找1,发现(2,3)满足条件

(3)G(2):找2,发现

(4)G(3):(2,5)

(5)G(4):设定不超过5,所以4是最后一个(4,5)

我们做聚类,最后把它拉成树状图:

总结

EAC步骤:

n ---维数    k---初始簇数   N---聚类数   t---阙值   邻近度矩阵设为空

(1)做N次:1.随机选择K聚类中心;2.初始化用K-Means,生成分区P;3.更新关联度矩阵,对P中同一集群中每对ij更新

(2)用SL找到一致性簇:1.投票法找到多数关联,对每对(i,j)合并到统一集群;2.没包含集群里剩下的做单个集群。

 

本人尚才疏学浅,如内容中有任何错误的地方,望告知,我会加以修改,之后会继续更新。

这篇关于集成聚类之EAC算法(证据积累数据聚类)附:单连接(SL)易理解详谈的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/352372

相关文章

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

MySQL 多表连接操作方法(INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN)

《MySQL多表连接操作方法(INNERJOIN、LEFTJOIN、RIGHTJOIN、FULLOUTERJOIN)》多表连接是一种将两个或多个表中的数据组合在一起的SQL操作,通过连接,... 目录一、 什么是多表连接?二、 mysql 支持的连接类型三、 多表连接的语法四、实战示例 数据准备五、连接的性

MySQL中的分组和多表连接详解

《MySQL中的分组和多表连接详解》:本文主要介绍MySQL中的分组和多表连接的相关操作,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录mysql中的分组和多表连接一、MySQL的分组(group javascriptby )二、多表连接(表连接会产生大量的数据垃圾)MySQL中的

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转