比elbow方法更好的聚类评估指标

2024-06-21 08:48

本文主要是介绍比elbow方法更好的聚类评估指标,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:Tirthajyoti Sarkar

编译:ronghuaiyang

导读

我们展示了用来可视化和决定最佳聚类数量的评估方法,要比最常用的elbow方法要好的多。

介绍

聚类是利用数据科学的商业或科研企业机器学习pipeline的重要组成部分。顾名思义,它有助于在一个数据blob中确定紧密相关(通过某种距离度量)的数据点的集合,否则就很难理解这些数据点。

然而,大多数情况下,聚类过程属于无监督机器学习。而无监督的ML则是一件混乱的事情。

没有已知的答案或标签来指导优化过程或衡量我们的成功。我们正处于一个未知的领域。

因此,当我们面对一个基本问题时,像k-means clustering]样的流行方法似乎不能提供一个完全令人满意的答案。

刚开始的时候,我们如何知道聚类的实际数量呢?

这个问题非常重要,因为聚类的过程通常是进一步处理单个聚类数据的前置问题,因此计算资源的数量可能依赖于这种度量。

在业务分析问题的情况下,后果可能更糟。聚类通常是为了市场细分的目标而进行的分析。因此,很容易想到,根据聚类的数量,对营销人员进行分配。因此,对聚类数量的错误评估可能导致宝贵资源的次优分配。

elbow方法

对于k-means聚类方法,回答这个问题最常用的方法是所谓的elbow 方法。它需要在一个循环中多次运行算法,聚类的数量不断增加,然后绘制聚类得分作为聚类数量的函数。

elbow法的分数或度量是什么?为什么它被称为'elbow'方法?一个典型的场景如下:

通常,得分是k-means目标函数上输入数据的度量,即某种形式的簇内距离相对于簇间距离。例如,在Scikit-learn的k-means estimator中,一个score 方法可用于此目的。

并不是那么明显,不是吗?

Silhouette coefficient — 一个更好的度量

Silhouette Coefficient是用每个样本的平均簇内距离a)和平均最近簇间距离(b)计算出来的。样本的轮廓系数为(b - a) / max(a, b)。为了澄清,b是该样本与该样本不属于的最近的群之间的距离。我们可以计算所有样本的平均Silhouette Coefficient,并以此作为判断集群数量的指标。

为了说明,我们使用Scikit-learn的make_blob 函数在4个特征维度和5个聚类中心上生成随机数据点。因此,这个问题的基本事实是,数据是在5个聚类中心附近生成的。然而,k-means算法无法知道这一点。

簇可以按如下方式绘制(成对特征):

接下来,我们运行k-means算法,选择k=2到k=12,计算每次运行的默认k-means得分和平均Silhouette Coefficient,并将它们并排绘制出来。

两者之间的区别再明显不过了。平均silhouette系数在k=5时增大,然后k值越大,平均silhouette系数急剧减小,即在k=5处有一个明显的峰值,这就是原始数据集生成的簇数。

silhouette系数与elbow法的平缓弯曲相比,表现出峰值特性。这更容易可视化和归因。

如果我们在数据生成过程中增加高斯噪声,簇看起来会更加重叠。

在本例中,elbow方法的默认k-means得分会产生相对不明确的结果。在下面的elbow图中,很难选择真正发生弯曲的合适点。是4、5、6还是7?

但silhouette系数图仍然能在4或5个聚类中心处出现峰值特征,使我们的判断更容易。

事实上,如果你回头看看重叠的簇,你会发现大多数情况下有4个可见的簇 —— 尽管数据是用5个聚类中心生成的,但由于高方差,只有4个簇在结构上显示出来。Silhouette系数可以很容易地捕捉到这种行为,并显示聚类的最佳数量在4到5之间。

BIC评分采用高斯混合模型

还有其他优秀的指标来确定的聚类的数量,比如Bayesian Information Criterion (BIC) ,但这些只有当我们希望用在k - means以外的聚类方法的时候才可以 ——  Gaussian Mixture Model (GMM)。

基本上,GMM将一个数据簇看作是具有独立均值和方差的多个高斯数据集的叠加。然后应用Expectation-Maximization (EM)算法来近似地确定这些平均值和方差。

把BIC作为正则化

你可能是从统计分析或你之前与线性回归的交互中认识到BIC这个术语。采用BIC和AIC (Akaike Information criteria)作为线性回归变量选择的正则化技术。

BIC/AIC用于线性回归模型的正则化。

这个想法在BIC中也有类似的应用。理论上,极其复杂的数据簇也可以建模为大量高斯数据集的叠加。为了这个目的,使用多少高斯函数没有限制。

但这与线性回归中增加模型复杂度类似,在线性回归中,可以使用大量特征来拟合任意复杂的数据,但却失去了泛化能力,因为过于复杂的模型拟合的是噪音,而不是真实的模式。

BIC方法惩罚了大的高斯函数数量,并试图使模型足够简单以解释给定的数据模式。

总结

这是这篇文章的notebook:https://github.com/tirthajyoti/computerlearing-with-python/blob/master/clustering-dimensions-reduction/clustering_metrics.ipynb,你可以试试。

对于经常使用的elbow方法,我们讨论了几个备选方案,用于使用k-means算法在无监督学习设置中挑选出正确数量的聚类。我们表明,Silhouette系数和BIC评分(来自k-means的GMM扩展)是比elbow方法更好的可视化识别最优簇数的方法。

—END—

英文原文:https://towardsdatascience.com/clustering-metrics-better-than-the-elbow-method-6926e1f723a6

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

这篇关于比elbow方法更好的聚类评估指标的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080751

相关文章

C# 比较两个list 之间元素差异的常用方法

《C#比较两个list之间元素差异的常用方法》:本文主要介绍C#比较两个list之间元素差异,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. 使用Except方法2. 使用Except的逆操作3. 使用LINQ的Join,GroupJoin

解读GC日志中的各项指标用法

《解读GC日志中的各项指标用法》:本文主要介绍GC日志中的各项指标用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、基础 GC 日志格式(以 G1 为例)1. Minor GC 日志2. Full GC 日志二、关键指标解析1. GC 类型与触发原因2. 堆

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优

关于集合与数组转换实现方法

《关于集合与数组转换实现方法》:本文主要介绍关于集合与数组转换实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、Arrays.asList()1.1、方法作用1.2、内部实现1.3、修改元素的影响1.4、注意事项2、list.toArray()2.1、方

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

一文详解Git中分支本地和远程删除的方法

《一文详解Git中分支本地和远程删除的方法》在使用Git进行版本控制的过程中,我们会创建多个分支来进行不同功能的开发,这就容易涉及到如何正确地删除本地分支和远程分支,下面我们就来看看相关的实现方法吧... 目录技术背景实现步骤删除本地分支删除远程www.chinasem.cn分支同步删除信息到其他机器示例步骤

在Golang中实现定时任务的几种高效方法

《在Golang中实现定时任务的几种高效方法》本文将详细介绍在Golang中实现定时任务的几种高效方法,包括time包中的Ticker和Timer、第三方库cron的使用,以及基于channel和go... 目录背景介绍目的和范围预期读者文档结构概述术语表核心概念与联系故事引入核心概念解释核心概念之间的关系

在Linux终端中统计非二进制文件行数的实现方法

《在Linux终端中统计非二进制文件行数的实现方法》在Linux系统中,有时需要统计非二进制文件(如CSV、TXT文件)的行数,而不希望手动打开文件进行查看,例如,在处理大型日志文件、数据文件时,了解... 目录在linux终端中统计非二进制文件的行数技术背景实现步骤1. 使用wc命令2. 使用grep命令

Python中Tensorflow无法调用GPU问题的解决方法

《Python中Tensorflow无法调用GPU问题的解决方法》文章详解如何解决TensorFlow在Windows无法识别GPU的问题,需降级至2.10版本,安装匹配CUDA11.2和cuDNN... 当用以下代码查看GPU数量时,gpuspython返回的是一个空列表,说明tensorflow没有找到

XML重复查询一条Sql语句的解决方法

《XML重复查询一条Sql语句的解决方法》文章分析了XML重复查询与日志失效问题,指出因DTO缺少@Data注解导致日志无法格式化、空指针风险及参数穿透,进而引发性能灾难,解决方案为在Controll... 目录一、核心问题:从SQL重复执行到日志失效二、根因剖析:DTO断裂引发的级联故障三、解决方案:修复