机器学习：DBSCAN算法（内有精彩动图）

2024-08-29 03:04

文章标签 算法学习机器动图内有精彩 dbscan

本文主要是介绍机器学习：DBSCAN算法（内有精彩动图），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

目录

前言

一、DBSCAN算法

1.动图展示（图片转载自网络）

2.步骤详解

3.参数配置

二、代码实现

1.完整代码

2.代码详解

1.导入数据

2.通过循环确定参数最佳值

总结

前言

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的聚类算法。它可以发现任意形状的簇并能够处理噪声数据。

一、DBSCAN算法

1.动图展示（图片转载自网络）

如图所示是DBSCAN算法的实现过程
这里使用参数是半径为1，最小样本量为4

2.步骤详解

初始化：从数据集中的每个点开始，初始化簇的构建。
核心点检测：判断每个点是否为核心点（即其邻域点的数量是否大于或等于 min_samples）。
簇扩展：
- 对于每个核心点，将其邻域内的所有点添加到簇中。
- 递归扩展这些点的邻域，直到簇扩展完成。
标记噪声点：那些没有被包含在任何簇中的点被标记为噪声点。

如图所示：

从A点开始，根据给定半径判断邻域内样本数是否符合给定最小样本量从而确定该点是不是核心
再遍历该邻域内每个点，重复上述步骤
直到某个点邻域内样本数小于给定最小样本量
至此簇扩展完成
此图 A B C 三点为一个簇内的点 N是离群点

3.参数配置

eps: 定义了一个点的邻域的最大距离（即半径）。如果一个点的邻域内有至少 min_samples 个点，则这些点被认为是一个簇的一部分。
min_samples: 形成一个簇所需的最小点数。如果一个点的邻域内的点数大于或等于 min_samples，则这些点被视为核心点，并且它们的邻域中的点将成为同一簇的一部分。

二、代码实现

1.完整代码

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metricsdata = pd.read_csv('data.txt', sep=' ')
x = data.iloc[:, 1:5]
# from sklearn.preprocessing import StandardScaler
# std = StandardScaler()
# x = std.fit_transform(x)"""
eps:半径
min_samples:最小密度
labels:分类结果   自动分类 -1为离群点
"""
scores = []
for i in range(2, 20):db = DBSCAN(eps=i, min_samples=2).fit(x)labels = db.labels_score = metrics.silhouette_score(x, labels)scores.append(score)print(scores)
best_i = scores.index(max(scores)) + 2
print("最佳半径为:", best_i)
db = DBSCAN(eps=best_i, min_samples=2).fit(x)
labels = db.labels_
score = metrics.silhouette_score(x, labels)
print("此时轮廓指数为:", score)data['cluster_db'] = labels
data = data.sort_values('cluster_db', ascending=True)pass

输出结果：

[-0.03670705609846274, -0.03670705609846274, -0.06781609566358748, -0.06781609566358748, 0.1626084889128696, 0.12626205982196476, 0.16564759416041527, 0.42951251219183106, 0.49530955296776086, 0.49530955296776086, 0.49530955296776086, 0.49530955296776086, 0.5857040721127795, 0.5857040721127795, 0.5238781710613801, 0.5238781710613801, 0.6731775046455796, 0.6731775046455796]
最佳半径为: 18
此时轮廓指数为: 0.6731775046455796

2.代码详解

1.导入数据

可以进行标准化也可以不进行标准化

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metricsdata = pd.read_csv('data.txt', sep=' ')
x = data.iloc[:, 1:5]
# from sklearn.preprocessing import StandardScaler
# std = StandardScaler()
# x = std.fit_transform(x)

2.通过循环确定参数最佳值

最后还将分类好的标签添加进了原数据
聚类算法通过轮廓系数来评价算法的好坏：
- 轮廓系数范围在[-1,1]之间。该值越大，越合理

"""
eps:半径
min_samples:最小密度
labels:分类结果   自动分类 -1为离群点
"""
scores = []
for i in range(2, 20):db = DBSCAN(eps=i, min_samples=2).fit(x)labels = db.labels_score = metrics.silhouette_score(x, labels)scores.append(score)print(scores)
best_i = scores.index(max(scores)) + 2
print("最佳半径为:", best_i)
db = DBSCAN(eps=best_i, min_samples=2).fit(x)
labels = db.labels_
score = metrics.silhouette_score(x, labels)
print("此时轮廓指数为:", score)
data['cluster_db'] = labels
data = data.sort_values('cluster_db', ascending=True)

输出：

总结

两种聚类算法已讲完，聚类算法适合原本没有标签只有特征的数据进行使用

这篇关于机器学习：DBSCAN算法（内有精彩动图）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1116654。 23002807@qq.com

相关文章

深入理解Mysql OnlineDDL的算法

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么？二、Online DDL 的三种主要算法2.1COPY（复制法）

阅读更多...

Unity新手入门学习殿堂级知识详细讲解（图文）

Unity新手入门学习殿堂级知识详细讲解（图文）

《Unity新手入门学习殿堂级知识详细讲解（图文）》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

阅读更多...

Python学习笔记之getattr和hasattr用法示例详解

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

阅读更多...

Java中的雪花算法Snowflake解析与实践技巧

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

阅读更多...

Go学习记录之runtime包深入解析

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,：本文主要介绍Go学习记录之runtime包的... 目录前言：一、runtime包内容学习1、作用：① Goroutine和并发控制：② 垃圾回收：③ 栈和

阅读更多...

Android学习总结之Java和kotlin区别超详细分析

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,：本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1：Kotlin 如何解决 Java 的 NullPointerExceptio

阅读更多...

使用雪花算法产生id导致前端精度缺失问题解决方案

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面：本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

阅读更多...

重新对Java的类加载器的学习方式

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》：本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

阅读更多...

Springboot实现推荐系统的协同过滤算法

Springboot实现推荐系统的协同过滤算法

《Springboot实现推荐系统的协同过滤算法》协同过滤算法是一种在推荐系统中广泛使用的算法,用于预测用户对物品（如商品、电影、音乐等）的偏好,从而实现个性化推荐,下面给大家介绍Springboot... 目录前言基本原理算法分类计算方法应用场景代码实现前言协同过滤算法（Collaborativ

阅读更多...

Java学习手册之Filter和Listener使用方法

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》：本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter（过滤器）1. Filter 的工作原理2. Filter 的配置与使用二、Listen

阅读更多...