机器学习算法/模型——有监督到无监督（聚类）：由 KNN 到 K-menas

本文主要是介绍机器学习算法/模型——有监督到无监督（聚类）：由 KNN 到 K-menas，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

聚类

1. KNN（K-Nearest Neighbor）
- 1.1 基本思想
- 1.2 算法步骤
2. 聚类（Clustering）
3. K-means
- 3.1 本质和概要
- - 本质
  - 前提
  - 算法思路
- 3.2 损失/目标函数
- 3.3 优化算法：期望最大化（EM）
4. 缺点
5. 代码
DBSCAN

有监督学习和无监督学习，是机器学习两个大的类别。

聚类算法属于无监督学习：训练数据只有输入变量 x 而没有输出变量 y 。

无监督学习的目的是将这些训练数据潜在的结构或者分布找出来，以便于我们对这些数据有更多的了解。

1. KNN（K-Nearest Neighbor）

1.1 基本思想

训练数据包括样本的特征向量（x）和标签（y）；
k 是一个常数，由用户来定义；
一个没有标签的样本进入算法后，首先找到与它距离最近的 k 个样本，然后用它这 k 个最近邻居的标签来确定它的标签。

在这里插入图片描述

1.2 算法步骤

算距离
给定未知对象，计算它与训练集中的每个样本的距离——特征变量是连续的情况下，将欧氏距离作为距离度量；若特征是离散的，也可以用重叠度量或者其他指标作为距离，这要结合具体情况分析。
找近邻
找到与未知对象距离最近的 k 个训练样本。
做分类/回归
在这 k 个近邻中出现次数最多的类别作为未知对象的预测类别（多数表决法），或者是取 k 个近邻的目标值平均数，作为未知对象的预测结果。

注：超参数 —— k 的取值大小，直接影响着KNN 算法的结果。
在这里插入图片描述
当取 k=3 时，根据多数选举法，预测结果为 B；但当 k=6 时，依然是根据多数选举法，预测结果就成为了 A。

k 是 KNN 算法唯一的超参数，因此，它对于 KNN 尤其重要。这一点和 KMeans 的 k 参数之于 KMeans，颇为神似。

2. 聚类（Clustering）

聚类技术，一句话概括：聚类就是通过对样本静态特征的分析，把相似的对象分到同一个子集，属于一种无监督式学习算法。

所以这在本质上回到了不同样本之间的相似性度量（Similarity Measurement）。这时通常采用的方法就是计算样本间的 “距离”（distance)。

可参考之前的文章：距离度量和范数
或者机器学习中的相似性度量

3. K-means

3.1 本质和概要

本质

核心：把样本分配到离它最近的类中心所属的类，类中心由属于这个类的所有样本确定
本质：K代表的是K类，means代表的是中心。K-means的本质就是确定K类的中心点，当找到了这些中心点也就完成了聚类。

K-means 是通过迭代的方式寻找K个簇（Cluster）的一种划分方案，使得聚类结果对应的代价函数最小。

前提

K-Means算法实施需要满足两个前提：

根据分布的先验概率，求得K
种子点的选取要cunning，尽量地远一点

算法思路

设置 K 个种子点；
遍历每个点，将其归属为与之距离最近的种子点，这就是它所属的簇；
遍历结束后，重新计算 K 个种子点的位置（簇中心点）；
重复 Steps 2 and 3，直到 K个种子点的位置不再改变。

3.2 损失/目标函数

代价函数可以定义为各个样本距离所属簇中心点的误差平方和：
在这里插入图片描述
其中x_i代表第i个样本，c_i是x_i所属于的簇，μ_ci代表簇对应的中心点，M 是样本总数。

3.3 优化算法：期望最大化（EM）

EM 算法
期望最大化（expectation-maximization，E-M）是一种非常强大的算法，应用于数据科学的很多场景中。k-means 是该算法的一个非常简单并且易于理解的应用。
EM 步骤

4. 缺点

EM 可能不会达到全局最优结果
解决：用不同的初始值尝试很多遍

在 Scikit-Learn 中通过 n_init 参数（默认值是 10）设置执行次数。
必须提前告诉算法簇的数量（K 值）

解决：合理选择 K 值—— 手肘法（暴力求解）

手肘法认为拐点就是 K 的最佳值。
k-means 算法只能确定线性聚类边界
k-means 聚类的边界总是线性的，这就意味着当边界很复杂时，算法会失效。
当数据量较大时，k-means 会很慢
由于 k-means 的每次迭代都必须获取数据集所有的点，因此随着数据量的增加，算法会变得缓慢。

解决：每一步仅使用数据集的一个子集来更新簇中心点。这恰恰就是批处理（batch-based） k-means 算法的核心思想。

5. 代码

导入模块

import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

准备数据

设置 centers=5

X, y = make_blobs(n_samples=500, n_features=2,centers=5, cluster_std=1.0, random_state=0)plt.scatter(X[:, 0], X[:, 1], cmap='viridis', s=20)

在这里插入图片描述

设置K，并进行训练

# 人为选择 n_clusters=4km_model = KMeans(n_clusters=4)
km_model.fit(X)

获取信息：簇中心坐标、数据标签

y_pred = km_model.predict(X) 
centers = km_model.cluster_centers_
# print(y_pred)
# print(centers)

用带彩色标签的数据来展示聚类结果。同时，画出簇中心点

聚类可视化


plt.scatter(centers[:, 0], centers[:,1], c='black', cmap='viridis', s=500, alpha=1) 
plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', s=10)

在这里插入图片描述

手动实现K-means

# 手动实现K-means （K-means：EM算法的应用）from sklearn.metrics import pairwise_distances_argmindef find_clusters(X, n_clusters, rseed=2):# 随机选取 clusters rng = np.random.RandomState(rseed)i = rng.permutation(X.shape[0])[:n_clusters]centers = X[i]while True:# 2a.基于最近的中心指定标签labels = pairwise_distances_argmin(X, centers)# 2b. 根据点的平均值找到新的中心new_centers = np.array([X[labels == i].mean(0)for i in range(n_clusters)])# 2c. 确认收敛if np.all(centers == new_centers):breakcenters = new_centersreturn centers, labelscenters, labels = find_clusters(X, 4)
plt.scatter(X[:, 0], X[:, 1], c=labels,s=30, cmap='viridis');

在这里插入图片描述

DBSCAN

DBSCAN是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。具体算法描述如下：（1）检测数据库中尚未检查过的对象p，如果p未被处理(归为某个簇或者标记为噪声)，则检查其邻域，若包含的对象数不小于minPts，建立新簇C，将其中的所有点加入候选集N；（2）对候选集N 中所有尚未被处理的对象q，检查其邻域，若至少包含minPts个对象，则将这些对象加入N；如果q 未归入任何一个簇，则将q 加入C；（3）重复步骤2)，继续检查N 中未处理的对象，当前候选集N为空；（4）重复步骤1)~3)，直到所有对象都归入了某个簇或标记为噪声。

这篇关于机器学习算法/模型——有监督到无监督（聚类）：由 KNN 到 K-menas的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！