机器学习算法/模型——有监督到无监督(聚类):由 KNN 到 K-menas

2024-01-17 12:20

本文主要是介绍机器学习算法/模型——有监督到无监督(聚类):由 KNN 到 K-menas,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

聚类

  • 1. KNN(K-Nearest Neighbor)
    • 1.1 基本思想
    • 1.2 算法步骤
  • 2. 聚类(Clustering)
  • 3. K-means
    • 3.1 本质和概要
      • 本质
      • 前提
      • 算法思路
    • 3.2 损失/目标函数
    • 3.3 优化算法:期望最大化(EM)
  • 4. 缺点
  • 5. 代码
  • DBSCAN

有监督学习和无监督学习,是机器学习两个大的类别。

聚类算法属于无监督学习:训练数据只有输入变量 x 而没有输出变量 y 。

无监督学习的目的是将这些训练数据潜在的结构或者分布找出来,以便于我们对这些数据有更多的了解。

1. KNN(K-Nearest Neighbor)

1.1 基本思想

  • 训练数据包括样本的特征向量(x)和标签(y);
  • k 是一个常数,由用户来定义;
  • 一个没有标签的样本进入算法后,首先找到与它距离最近的 k 个样本,然后用它这 k 个最近邻居的标签来确定它的标签。

在这里插入图片描述

1.2 算法步骤

  • 算距离
    给定未知对象,计算它与训练集中的每个样本的距离——特征变量是连续的情况下,将欧氏距离作为距离度量;若特征是离散的,也可以用重叠度量或者其他指标作为距离,这要结合具体情况分析。
  • 找近邻
    找到与未知对象距离最近的 k 个训练样本。
  • 做分类/回归
    在这 k 个近邻中出现次数最多的类别作为未知对象的预测类别(多数表决法),或者是取 k 个近邻的目标值平均数,作为未知对象的预测结果。

注:超参数 —— k 的取值大小,直接影响着KNN 算法的结果。
在这里插入图片描述
当取 k=3 时,根据多数选举法,预测结果为 B;但当 k=6 时,依然是根据多数选举法,预测结果就成为了 A。

k 是 KNN 算法唯一的超参数,因此,它对于 KNN 尤其重要。这一点和 KMeans 的 k 参数之于 KMeans,颇为神似。

2. 聚类(Clustering)

聚类技术,一句话概括:聚类就是通过对样本静态特征的分析,把相似的对象分到同一个子集,属于一种无监督式学习算法。

所以这在本质上回到了不同样本之间的相似性度量(Similarity Measurement)。这时通常采用的方法就是计算样本间的 “距离”(distance)。

可参考之前的文章:距离度量和范数
或者 机器学习中的相似性度量

3. K-means

3.1 本质和概要

本质

核心:把样本分配到离它最近的类中心所属的类,类中心由属于这个类的所有样本确定
本质:K代表的是K类,means代表的是中心。K-means的本质就是确定K类的中心点,当找到了这些中心点也就完成了聚类。

K-means 是通过迭代的方式寻找K个簇(Cluster)的一种划分方案,使得聚类结果对应的代价函数最小。

前提

K-Means算法实施需要满足两个前提:

  • 根据分布的先验概率,求得K

  • 种子点的选取要cunning,尽量地远一点

算法思路

  • 设置 K 个种子点;
  • 遍历每个点,将其归属为与之距离最近的种子点,这就是它所属的
  • 遍历结束后,重新计算 K 个种子点的位置(簇中心点);
  • 重复 Steps 2 and 3,直到 K个种子点的位置不再改变。

3.2 损失/目标函数

代价函数可以定义为各个样本距离所属簇中心点的误差平方和:
在这里插入图片描述
其中xi代表第i个样本,ci是xi所属于的簇,μci代表簇对应的中心点,M 是样本总数。

3.3 优化算法:期望最大化(EM)

  • EM 算法
    期望最大化(expectation-maximization,E-M)是一种非常强大的算法,应用于数据科学的很多场景中。k-means 是该算法的一个非常简单并且易于理解的应用。

  • EM 步骤
    在这里插入图片描述

4. 缺点

  • EM 可能不会达到全局最优结果
    解决:用不同的初始值尝试很多遍

    在 Scikit-Learn 中通过 n_init 参数(默认值是 10)设置执行次数。

  • 必须提前告诉算法簇的数量(K 值)

    解决:合理选择 K 值—— 手肘法(暴力求解)
    在这里插入图片描述
    手肘法认为拐点就是 K 的最佳值。

  • k-means 算法只能确定线性聚类边界
    k-means 聚类的边界总是线性的,这就意味着当边界很复杂时,算法会失效。

  • 当数据量较大时,k-means 会很慢
    由于 k-means 的每次迭代都必须获取数据集所有的点,因此随着数据量的增加,算法会变得缓慢。

    解决:每一步仅使用数据集的一个子集来更新簇中心点。这恰恰就是批处理(batch-based) k-means 算法的核心思想。

5. 代码

  • 导入模块
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
  • 准备数据

设置 centers=5

X, y = make_blobs(n_samples=500, n_features=2,centers=5, cluster_std=1.0, random_state=0)plt.scatter(X[:, 0], X[:, 1], cmap='viridis', s=20)

在这里插入图片描述

  • 设置K,并进行训练
# 人为选择 n_clusters=4km_model = KMeans(n_clusters=4)
km_model.fit(X) 

获取信息:簇中心坐标、数据标签

y_pred = km_model.predict(X) 
centers = km_model.cluster_centers_
# print(y_pred)
# print(centers)

用带彩色标签的数据来展示聚类结果。同时,画出簇中心点

  • 聚类可视化

plt.scatter(centers[:, 0], centers[:,1], c='black', cmap='viridis', s=500, alpha=1) 
plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', s=10) 

在这里插入图片描述

  • 手动实现K-means
# 手动实现K-means (K-means:EM算法的应用)from sklearn.metrics import pairwise_distances_argmindef find_clusters(X, n_clusters, rseed=2):# 随机选取 clusters rng = np.random.RandomState(rseed)i = rng.permutation(X.shape[0])[:n_clusters]centers = X[i]while True:# 2a.基于最近的中心指定标签labels = pairwise_distances_argmin(X, centers)# 2b. 根据点的平均值找到新的中心new_centers = np.array([X[labels == i].mean(0)for i in range(n_clusters)])# 2c. 确认收敛if np.all(centers == new_centers):breakcenters = new_centersreturn centers, labelscenters, labels = find_clusters(X, 4)
plt.scatter(X[:, 0], X[:, 1], c=labels,s=30, cmap='viridis');

在这里插入图片描述

DBSCAN

DBSCAN是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。具体算法描述如下: (1)检测数据库中尚未检查过的对象p,如果p未被处理(归为某个簇或者标记为噪声),则检查其邻域,若包含的对象数不小于minPts,建立新簇C,将其中的所有点加入候选集N; (2)对候选集N 中所有尚未被处理的对象q,检查其邻域,若至少包含minPts个对象,则将这些对象加入N;如果q 未归入任何一个簇,则将q 加入C; (3)重复步骤2),继续检查N 中未处理的对象,当前候选集N为空; (4)重复步骤1)~3),直到所有对象都归入了某个簇或标记为噪声。

这篇关于机器学习算法/模型——有监督到无监督(聚类):由 KNN 到 K-menas的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/616030

相关文章

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.