机器学习:DBSCAN算法(内有精彩动图)

2024-08-29 03:04

本文主要是介绍机器学习:DBSCAN算法(内有精彩动图),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

前言

一、DBSCAN算法

1.动图展示(图片转载自网络)

2.步骤详解

3.参数配置

二、代码实现

1.完整代码

2.代码详解

1.导入数据

2.通过循环确定参数最佳值

总结


前言

        DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法。它可以发现任意形状的簇并能够处理噪声数据。

 

一、DBSCAN算法

1.动图展示(图片转载自网络)

  • 如图所示是DBSCAN算法的实现过程
  • 这里使用参数是半径为1,最小样本量为4

 

2.步骤详解

  1. 初始化:从数据集中的每个点开始,初始化簇的构建。
  2. 核心点检测:判断每个点是否为核心点(即其邻域点的数量是否大于或等于 min_samples)。
  3. 簇扩展
    • 对于每个核心点,将其邻域内的所有点添加到簇中。
    • 递归扩展这些点的邻域,直到簇扩展完成。
  4. 标记噪声点:那些没有被包含在任何簇中的点被标记为噪声点。

如图所示:

  • 从A点开始,根据给定半径判断邻域内样本数是否符合给定最小样本量从而确定该点是不是核心
  • 再遍历该邻域内每个点,重复上述步骤
  • 直到某个点邻域内样本数小于给定最小样本量
  • 至此簇扩展完成
  • 此图 A B C 三点为一个簇内的点  N是离群点

 

3.参数配置

  1. eps: 定义了一个点的邻域的最大距离(即半径)。如果一个点的邻域内有至少 min_samples 个点,则这些点被认为是一个簇的一部分。

  2. min_samples: 形成一个簇所需的最小点数。如果一个点的邻域内的点数大于或等于 min_samples,则这些点被视为核心点,并且它们的邻域中的点将成为同一簇的一部分。

 

二、代码实现

1.完整代码

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metricsdata = pd.read_csv('data.txt', sep=' ')
x = data.iloc[:, 1:5]
# from sklearn.preprocessing import StandardScaler
# std = StandardScaler()
# x = std.fit_transform(x)"""
eps:半径
min_samples:最小密度
labels:分类结果   自动分类 -1为离群点
"""
scores = []
for i in range(2, 20):db = DBSCAN(eps=i, min_samples=2).fit(x)labels = db.labels_score = metrics.silhouette_score(x, labels)scores.append(score)print(scores)
best_i = scores.index(max(scores)) + 2
print("最佳半径为:", best_i)
db = DBSCAN(eps=best_i, min_samples=2).fit(x)
labels = db.labels_
score = metrics.silhouette_score(x, labels)
print("此时轮廓指数为:", score)data['cluster_db'] = labels
data = data.sort_values('cluster_db', ascending=True)pass

输出结果:

[-0.03670705609846274, -0.03670705609846274, -0.06781609566358748, -0.06781609566358748, 0.1626084889128696, 0.12626205982196476, 0.16564759416041527, 0.42951251219183106, 0.49530955296776086, 0.49530955296776086, 0.49530955296776086, 0.49530955296776086, 0.5857040721127795, 0.5857040721127795, 0.5238781710613801, 0.5238781710613801, 0.6731775046455796, 0.6731775046455796]
最佳半径为: 18
此时轮廓指数为: 0.6731775046455796

 

2.代码详解

1.导入数据

可以进行标准化也可以不进行标准化

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metricsdata = pd.read_csv('data.txt', sep=' ')
x = data.iloc[:, 1:5]
# from sklearn.preprocessing import StandardScaler
# std = StandardScaler()
# x = std.fit_transform(x)

 

2.通过循环确定参数最佳值

  • 最后还将分类好的标签添加进了原数据
  • 聚类算法通过轮廓系数来评价算法的好坏:
    • 轮廓系数范围在[-1,1]之间。该值越大,越合理
"""
eps:半径
min_samples:最小密度
labels:分类结果   自动分类 -1为离群点
"""
scores = []
for i in range(2, 20):db = DBSCAN(eps=i, min_samples=2).fit(x)labels = db.labels_score = metrics.silhouette_score(x, labels)scores.append(score)print(scores)
best_i = scores.index(max(scores)) + 2
print("最佳半径为:", best_i)
db = DBSCAN(eps=best_i, min_samples=2).fit(x)
labels = db.labels_
score = metrics.silhouette_score(x, labels)
print("此时轮廓指数为:", score)
data['cluster_db'] = labels
data = data.sort_values('cluster_db', ascending=True)

输出:

 

总结

        两种聚类算法已讲完,聚类算法适合原本没有标签只有特征的数据进行使用

这篇关于机器学习:DBSCAN算法(内有精彩动图)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1116654

相关文章

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

Springboot实现推荐系统的协同过滤算法

《Springboot实现推荐系统的协同过滤算法》协同过滤算法是一种在推荐系统中广泛使用的算法,用于预测用户对物品(如商品、电影、音乐等)的偏好,从而实现个性化推荐,下面给大家介绍Springboot... 目录前言基本原理 算法分类 计算方法应用场景 代码实现 前言协同过滤算法(Collaborativ

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.