看书标记【数据科学:R语言实战 6】

2024-03-28 23:04

本文主要是介绍看书标记【数据科学:R语言实战 6】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

看书标记——R语言

  • Chapter 6 数据分析——聚类
      • 6.1 功能包
      • 6.2 K-means聚类
        • 6.2.1 示例
        • 6.2.2 Medoids集群
        • 6.2.3 cascadeKM函数
        • 6.2.4 基于贝叶斯定理
        • 6.2.5 仿射传播聚类
        • 6.2.6 用于估测集群数量的间隙统计量
        • 6.2.7 分级聚类

【数据科学:R语言实战】

Chapter 6 数据分析——聚类

6.1 功能包

  • NbClust:集群指数的数量
  • fpc:包含进行聚类的灵活程序
  • vegan:社区生态功能包
  • apcluster:用于仿射传播聚类操作
  • pvclust:用于分级聚类操作

6.2 K-means聚类

kmeans()

  • 参数
    x 数据集
    centers 包含了所要查找的中心/集群数量
    iter.max 存储了所允许迭代的最大量
    nstart 包含了所要查找的随机整群数
    algorithm 包含了用于确定集群的算法(“Hartigan-Wong\Lloyd”)
    trace 生成跟踪信息以确定中心
6.2.1 示例

数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到)

data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
# summary(data)
plot(data) ##关系密切
kmeans(data,5)
# kmeans(data,10)
# kmeans(data,15)
# kmeans(data,20)

最佳集群数量
NbClust()通过使用一些列度量中心和距离的指数对每个集群复查,并对每个集群所设定的优选数字频数进行计数。
data 数据集
diss 相异矩阵
distance 待用的距离度量
min.nc 最小集群数
max.nc 最大集群数
**method ** “ward/single/compete/average/mcquitty/median/centroid/kmeans”
index 待计算的指数
alphaBeale 包含了比尔指数的一个重要数值

install.packages("NbClust")
library(NbClust)
set.seed(2365)  ##保证过程可以复写
nc <- NbClust(data, min.nc=10, max.nc=15, method="kmeans") #propose提议,所以选择最佳聚类中心数11
6.2.2 Medoids集群

fpc中的pamk()将最小相异度作为行列式使用(对应kmeans中的距离)

  • 参数
    data 数据集
    krange 集群数量,默认2~10
    criterion “asw/multiasw/ch” average silhouette 方法
    usepam 逻辑标记,默认TRUE,也可以写为pam,对于大数据集用clara=TRUE
    scaling 逻辑标记,默认FALSE,均方根会对变量进行划分
    alpha dudahart方法的调谐常数,默认0.001
    diss 使用相异点矩阵的逻辑标记
    critout 默认为FALSE,集群印刷标准的逻辑标记
install.packages("fpc")
library(fpc)
best <- pamk(data);best
library(cluster)
plot(pam(data, best$nc))
6.2.3 cascadeKM函数

vegan包里的cascadeKM()是kmeans实施的包装器,用于确定最佳k值

install.packages("vegan")
library(vegan)
fit <- cascadeKM(scale(data, center=TRUE, scale=TRUE), 10, 15) ##inf.gr下限,sup.gr上限,iter迭代次数默认100,criterion ="calinski/ssi"选取集群标准
plot(fit, sortg=TRUE, grmts.plot=TRUE)  ##选聚类数对应数值最大的
6.2.4 基于贝叶斯定理

mclust包中的Mclust()是基于数据显示的贝叶斯定理信息 选取最佳集群大小
数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到)

library(mclust)
d <- Mclust(as.matrix(data), G=10:15)
plot(d)
##图一,不同方式对应的BIC信息与集群数量,选取BIC最小的项
##图二,相关性表
##图三,每个属性对比的对数密度等值线图
summary(d) #n观测数量和迭代次数,最佳集群数量为11,各个集群对应的数据点
6.2.5 仿射传播聚类

apcluster()实施仿射传播聚类,通过比较指定集群相关信息的不同数值实施仿射传播聚类。

install.packages("apcluster")
library(apcluster)
neg <- negDistMat(data, r=2)
ap <- apcluster(neg) ;#ap
summary(ap)
length(ap@clusters)  ##最佳集群数81,存在高仿射性
6.2.6 用于估测集群数量的间隙统计量

clusGap()为一系列集群值计算聚类度量适合度或间隙统计量

  • 参数
    x 数据集
    FUNcluster 聚类函数
    K.max 最大集群数
    B 所用Monte Carlo样品数
    verbose 用以辨别是否生成进度输出
data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
library(cluster)
clusGap(data, kmeans, 15, B=100, verbose=interactive()) ###选gap最大的集群数
6.2.7 分级聚类

pvclust包中的pvclust()实施分类聚类

  • 参数
    data 数据框矩阵
    method.hclust 凝聚算法"默认averge/ward/single/complete/mcquitty/median/centroid"
    method.dist 待用距离度量"默认correlation/uncentered/abscor"
    use.cor 待用的用以计算空缺值相关性的方法"all.obs/complete.obs/pairwise.complete.obs"
install.packages("pvclust")
library(pvclust)
data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
pv <- pvclust(data);pv
plot(pv)  ##聚类系统树图

转载 机器学习确定最佳聚类数目的10种方法

这篇关于看书标记【数据科学:R语言实战 6】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/856936

相关文章

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型:

Go语言中json操作的实现

《Go语言中json操作的实现》本文主要介绍了Go语言中的json操作的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录 一、jsOChina编程N 与 Go 类型对应关系️ 二、基本操作:编码与解码 三、结构体标签(Struc

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

python语言中的常用容器(集合)示例详解

《python语言中的常用容器(集合)示例详解》Python集合是一种无序且不重复的数据容器,它可以存储任意类型的对象,包括数字、字符串、元组等,下面:本文主要介绍python语言中常用容器(集合... 目录1.核心内置容器1. 列表2. 元组3. 集合4. 冻结集合5. 字典2.collections模块

Oracle Scheduler任务故障诊断方法实战指南

《OracleScheduler任务故障诊断方法实战指南》Oracle数据库作为企业级应用中最常用的关系型数据库管理系统之一,偶尔会遇到各种故障和问题,:本文主要介绍OracleSchedul... 目录前言一、故障场景:当定时任务突然“消失”二、基础环境诊断:搭建“全局视角”1. 数据库实例与PDB状态2