数学建模之聚类算法(K-means)

2023-10-18 20:50

本文主要是介绍数学建模之聚类算法(K-means),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

K-means聚类算法

k-means算法以k为参数,把n个对像分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。

1、随机选择k个点作为初始的棸类中心。

2、对于剩下的点,根据其与棸类中心的距离,将其归入最近的簇。

3、对于每个簇,计算所有点的均值作为新的聚类中心。

4、重复23直到棸类中心不再发生改变。

  1. K-means的案例分析

1:现有1999年全国31个省份城镇居民家庭平均每人全年消费性支出的主要变量数据。

目的:通过聚类,了解1999年各个省份的消费水平在国内的情况。

  • 在jupyter下导入相关包与数据

加载数据, 创建K-means算法实例, 井进行训练, 获得标签。

调用K-Means方法所需参数:

1n_clusters:用于指定聚类中心的个数。

2 init:初始聚类中心的初始化方法。

3 max_iter:最大的迭代次数。

4、一般调用时只用给出n_clusters即可,init默认是 k-means ++ ,

max_iter默认是300

5fit_predict():计算簇中心以及为簇分配序号。

  • 输出标签, 分析结果

将城市按照消费水平分成n_clusters类,消费水平相近的城市聚集在一类中。

expens:聚类中心点的数值加和,也就是平均消费水平。

n_clusters=2时,聚类的结果

n_clusters=3时,聚类的结果

 n_clusters=4时,聚类的结果

结论:从这几次聚类的比较中可以看出,消费水平相近的省市聚集在一类。而北京、上海和广东很稳定的一直聚集在同一类中,在当k = 4时,这样的一种聚类可以比较明显的看出消费层级。

K-Means的扩展改进

计算两条数据相似性时, Sklearn的K-Means默认使用的是欧式距离。虽然还有余弦相似度, 与马氏距离等多种方法,但没有设定计算距离方法的参数。如果要改变计算距离的公式时,可以改变K-means的源代码。

  • 统计学中的聚类

    1、分类和聚类的区别:

分类:是根据事物的本身的性质或特点去定义的。

聚类:是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程

两者不同点在于聚类所要求的划分的标签是未知的。(即无监督学习)

聚类分析是一种探索性分析,在分类过程中,不必给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。

2、聚类的原理:

1、当分类对象属性过多时,为了保证分类的合理性,我们要选择适当的分类指标,来描述对象间联系的紧密程度。

直观理解→按距离远近来划分

2、选多少个变量属性来进行聚类,就构成一个多少维度的空间,研究对象用空间中的点表示,一般规为,距离近的点为一类,距离远的点为另一类。

3、原则上同类间具有尽可能多的同性。

4、两类差距越大则分类效果越好。

K-Means算法

k均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中。

  • K-means算法步骤:

  • K-means案例分析:

例4:对16个地区居民生活水平的进行分析。数据为我国16个地区的农民在1982年支出的抽样情况,每个地区都调查反映每个人平均生活消费支出情况的6个指标。利用K-Means聚类的方法分析进行分类。

Step1:第一步一定是先将数据预处理(查找缺失值、消除量纲与标准化)

在SPSS进行操作得到:

初始聚类中心表:系统自动选出了5个初始聚类中心,分别为以下地区:北京、江苏、河北、上海和内蒙古。以上初始类中心基本包括了16个地区中高消费到低消费地区的各个层次。

最终聚类中心:表示各类地区消费水平指数。(实际意义)

最终聚类中心的距离:表示各个类之间的差距。

方差分析表:表示各指数在不同地区的均值比较,即五类地区之间的差异。观测图中的数据:X3和X6在聚类分析得出的类别都呈现出了显著差异,可见这两个变量在聚类分析中没有起到作用,当前聚类分析结果可以不能用数据的聚类。

2、K-means案例分析(2):

例5:针对于对31个省份的情况用SPPSS聚类与机器学习的聚类作比较来了解1999年的国民平均收入情况。

Step1:由于此数据的量纲一致,所以先直接用K-Means聚类得到下图(17),分析表中信息当k = 3时,很明显的将北京、上海和广东聚到了一类(与机器学习数据一样)但身下的两类就有了明显差异。

Step2:将数据进行了标准化后,分析了当k=3的时候的聚类模型。

将北京、天津、上海和浙江聚到了一类。

结论:通过将数据处理后的模型的聚类效果好、精度高和可用性强。

2、聚类的目的:

1、聚类的目标是同一类对象的相似度尽可能大,不同类对象之间的相似度尽可能的小。

2、设计抽样方案(分层抽样)预分析过程(简化数据)细分市场、个体消费行为划分(先聚类,然后再利用判别分析进一步研究各个群体之间得差异)

系统聚类与K-means的区别

系统聚类

K-means聚类

事先不需要确定要分多少类

自动确定最佳分类数

事先需要确定要分多少类

计算量较大,对大量数据的聚类效率不高

计算量小,适于数据量大的聚类

可对个案和变量聚类

不能对变量聚类,所使用的变量必须是连续变量。

可以绘制出树状聚类图,方便使用者直观选择类别

3、聚类分析需要注意的问题

1、对于一个实际问题要根据分类的目的来选取指标,指标 选取的不同分类结果一般也不同。

2、样品间距离定义方式的不同,聚类结果一般也不同。

3、聚类方法的不同,聚类结果一般也不同(尤其是样品特别多的时候)。最好能通过各种方法找出其中的共性。

4、要注意指标的量纲,量纲差别太大会导致聚类结果不合理。

5、聚类分析的结果可能不令人满意,因为我们所做的是一个数学的处理,对于结果我们要找到一个合理的解释。

 6、当要确定k的值时可以通过肘部法则(用图形估计聚类的数量)

这篇关于数学建模之聚类算法(K-means)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/235063

相关文章

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

Springboot实现推荐系统的协同过滤算法

《Springboot实现推荐系统的协同过滤算法》协同过滤算法是一种在推荐系统中广泛使用的算法,用于预测用户对物品(如商品、电影、音乐等)的偏好,从而实现个性化推荐,下面给大家介绍Springboot... 目录前言基本原理 算法分类 计算方法应用场景 代码实现 前言协同过滤算法(Collaborativ

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1