看书标记【数据科学：R语言实战 6】

本文主要是介绍看书标记【数据科学：R语言实战 6】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

看书标记——R语言

Chapter 6 数据分析——聚类
- - 6.1 功能包
  - 6.2 K-means聚类
  - - 6.2.1 示例
    - 6.2.2 Medoids集群
    - 6.2.3 cascadeKM函数
    - 6.2.4 基于贝叶斯定理
    - 6.2.5 仿射传播聚类
    - 6.2.6 用于估测集群数量的间隙统计量
    - 6.2.7 分级聚类

【数据科学：R语言实战】

Chapter 6 数据分析——聚类

6.1 功能包

NbClust：集群指数的数量
fpc：包含进行聚类的灵活程序
vegan：社区生态功能包
apcluster：用于仿射传播聚类操作
pvclust：用于分级聚类操作

6.2 K-means聚类

kmeans()

参数
x 数据集
centers 包含了所要查找的中心/集群数量
iter.max 存储了所允许迭代的最大量
nstart 包含了所要查找的随机整群数
algorithm 包含了用于确定集群的算法（“Hartigan-Wong\Lloyd”）
trace 生成跟踪信息以确定中心

6.2.1 示例

数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到）

data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件，用的；分栏
# summary(data)
plot(data) ##关系密切
kmeans(data,5)
# kmeans(data,10)
# kmeans(data,15)
# kmeans(data,20)

最佳集群数量
NbClust()通过使用一些列度量中心和距离的指数对每个集群复查，并对每个集群所设定的优选数字频数进行计数。
data 数据集
diss 相异矩阵
distance 待用的距离度量
min.nc 最小集群数
max.nc 最大集群数
**method ** “ward/single/compete/average/mcquitty/median/centroid/kmeans”
index 待计算的指数
alphaBeale 包含了比尔指数的一个重要数值

install.packages("NbClust")
library(NbClust)
set.seed(2365)  ##保证过程可以复写
nc <- NbClust(data, min.nc=10, max.nc=15, method="kmeans") #propose提议，所以选择最佳聚类中心数11

6.2.2 Medoids集群

fpc中的pamk()将最小相异度作为行列式使用（对应kmeans中的距离）

参数
data 数据集
krange 集群数量，默认2~10
criterion “asw/multiasw/ch” average silhouette 方法
usepam 逻辑标记，默认TRUE，也可以写为pam，对于大数据集用clara=TRUE
scaling 逻辑标记，默认FALSE，均方根会对变量进行划分
alpha dudahart方法的调谐常数，默认0.001
diss 使用相异点矩阵的逻辑标记
critout 默认为FALSE，集群印刷标准的逻辑标记

install.packages("fpc")
library(fpc)
best <- pamk(data);best
library(cluster)
plot(pam(data, best$nc))

6.2.3 cascadeKM函数

vegan包里的cascadeKM()是kmeans实施的包装器，用于确定最佳k值

install.packages("vegan")
library(vegan)
fit <- cascadeKM(scale(data, center=TRUE, scale=TRUE), 10, 15) ##inf.gr下限，sup.gr上限，iter迭代次数默认100，criterion ="calinski/ssi"选取集群标准
plot(fit, sortg=TRUE, grmts.plot=TRUE)  ##选聚类数对应数值最大的

6.2.4 基于贝叶斯定理

mclust包中的Mclust()是基于数据显示的贝叶斯定理信息选取最佳集群大小
数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到）

library(mclust)
d <- Mclust(as.matrix(data), G=10:15)
plot(d)
##图一，不同方式对应的BIC信息与集群数量，选取BIC最小的项
##图二，相关性表
##图三，每个属性对比的对数密度等值线图
summary(d) #n观测数量和迭代次数，最佳集群数量为11，各个集群对应的数据点

6.2.5 仿射传播聚类

apcluster()实施仿射传播聚类，通过比较指定集群相关信息的不同数值实施仿射传播聚类。

install.packages("apcluster")
library(apcluster)
neg <- negDistMat(data, r=2)
ap <- apcluster(neg) ;#ap
summary(ap)
length(ap@clusters)  ##最佳集群数81，存在高仿射性

6.2.6 用于估测集群数量的间隙统计量

clusGap()为一系列集群值计算聚类度量适合度或间隙统计量

参数
x 数据集
FUNcluster 聚类函数
K.max 最大集群数
B 所用Monte Carlo样品数
verbose 用以辨别是否生成进度输出

data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件，用的；分栏
library(cluster)
clusGap(data, kmeans, 15, B=100, verbose=interactive()) ###选gap最大的集群数

6.2.7 分级聚类

pvclust包中的pvclust()实施分类聚类

参数
data 数据框矩阵
method.hclust 凝聚算法"默认averge/ward/single/complete/mcquitty/median/centroid"
method.dist 待用距离度量"默认correlation/uncentered/abscor"
use.cor 待用的用以计算空缺值相关性的方法"all.obs/complete.obs/pairwise.complete.obs"

install.packages("pvclust")
library(pvclust)
data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件，用的；分栏
pv <- pvclust(data);pv
plot(pv)  ##聚类系统树图

转载机器学习确定最佳聚类数目的10种方法

这篇关于看书标记【数据科学：R语言实战 6】的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

看书标记【数据科学：R语言实战 6】

看书标记——R语言

Chapter 6 数据分析——聚类

6.1 功能包

6.2 K-means聚类

6.2.1 示例

6.2.2 Medoids集群

6.2.3 cascadeKM函数

6.2.4 基于贝叶斯定理

6.2.5 仿射传播聚类

6.2.6 用于估测集群数量的间隙统计量

6.2.7 分级聚类

相关文章

从基础到高级详解Go语言中错误处理的实践指南

Python版本信息获取方法详解与实战

Linux下利用select实现串口数据读取过程

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

Go语言中json操作的实现

C#使用iText获取PDF的trailer数据的代码示例

Pandas处理缺失数据的方式汇总

C++中处理文本数据char与string的终极对比指南

python语言中的常用容器(集合)示例详解

Oracle Scheduler任务故障诊断方法实战指南