看书标记【数据科学:R语言实战 1】

2024-01-27 16:20

本文主要是介绍看书标记【数据科学:R语言实战 1】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

看书标记——R语言

  • Chapter 1 模式的数据挖掘
      • 1.1 聚类分析
        • 1.1.1 k-means聚类
          • 用法
          • 示例
        • 1.1.2 k-medoids聚类
          • 用法
          • 示例
          • 1.1.3 分层聚类
          • 用法
          • 示例
        • 1.1.4 期望最大化(EM)
          • 用法
          • 示例
        • 1.1.5 密度估计
          • 用法
          • 示例
      • 1.2 异常检测
        • 1.2.1 显示异常值
          • 示例 1
          • 示例 2
          • 示例 3
        • 1.2.2 计算异常值
          • 示例 1(用name函数创建异常)
          • 示例 2(DMwR中的lofactor函数)
      • 1.3 关联规则(购物篮分析)
          • 用法
          • 示例

【数据科学:R语言实战 1】

Chapter 1 模式的数据挖掘

1.1 聚类分析

1.1.1 k-means聚类

步骤:
(1)从数据中选取k随机行(质心)
(2)使用Lloyd’s算法确定集群
(3)与质心的距离对每个数据点进行分配
(4)将质心重新用与其相关的所有点的平均值代替
(5)对与质心距离最近的数据重新分配
(6)循坏3、4,直到数据不再分配
第三步表示k-means无法与相当稀疏的数据或者有较多异常值的数据一起工作,另外,集群最好有线性形状。

用法

kmeans()

  • 参数
    x 待分析的数据矩阵
    centers 集群数量
    iter.max 最大迭代次数
    nstart 随机集的使用次数
    algorithm 算法Hartigan-Wong、Lloyd、Forgy、MacQueen.
    trace跟踪信息
  • 属性
    cluster集群分配
    centers集群中心
    totss总平方和
    withinss每个聚类平方和的向量
    tot.withinss距离平方和总量
    betweenss聚类组间平方和
    size每个聚类的数据点数量
    iter执行迭代的次数
    ault专家诊断
示例
x <- rbind(matrix(rnorm(100, sd = 0.3), ncol = 2),matrix(rnorm(100, mean = 1, sd = 0.3), ncol = 2))
x
fit <- kmeans(x,10)
fit
#碎石图选集群数
results <-matrix(nrow=14,ncol=2,dimnames=list(2:15,c("clusters","sumsquares")))
for(1 in 2:15){fit<-kmeans(x,i)results[i-1,1]<-iresults[i-1,2]<-fit$totss}plot(results)

cluster means用于集群分配的平均值的分解
cluster vector将100个数分配的集群
cluster sum of squares总平方和94.6%是拟合度的表现。

1.1.2 k-medoids聚类
用法

pam()

  • 参数
    x 待分析的数据矩阵(基于diss标记)
    k 集群数量
    diss FALSE(x是矩阵),TRUE(x是相异度矩阵)
    metric euclidean(欧几里得)、manhattan(曼哈顿距离)
    medoids 如果分配到了NULL,就需要开发一组medoids,否则,这是一组初步medoids.
    stand 使用x的度量标准化
    cluster.only TRUE返回聚类
    do.swap 0、1是否进行交换
    keep.diss 0、1是否保存相异点在结果中
    keep.data 0、1是否保留数据在结果中
    trace.lev 跟踪级别,0表示无跟踪信息
示例

medoids.csv数据

library(cluster)
x <- read.table(“medoids.csv”, header=TRUE, sep=",")
result <- pam(x, 2, FALSE, "euclidean")  ##medoids函数
resultsummary(result)
plot(result$data, col = result$clustering)

medoids指定使用第3行和第6行
clustering vector聚集群
objective function展示构建阶段和交换阶段的函数值

1.1.3 分层聚类

聚合法和分裂法

用法

hclust()

  • 参数
    d 矩阵
    method 附聚法,“ward.D/ward.D2/single/complete/average/mcquitty/median/centroid”
示例
dat <- matrix(rnorm(100), nrow=10, ncol=10)  #以正态数据为例
dat
hc <- hclust(dist(dat));hc
plot(hc)
1.1.4 期望最大化(EM)

mclust函数包里的Mclust函数(基于模型的聚类、分类、密度估计、贝叶斯正则化等,通过EM算法拟合正态混合模型)

用法

Mclust

  • 参数
    data 矩阵
    G 使用的集群数量的向量,用于BIC,默认值为1:9
    modelNames 使用的模型名称的向量。当Mclust函数试图决定哪个项目属于某一集群时,函数就会使用模。单变量混合、多变量混合、单一分量数据集有不同的模型名称。(E:等方差;V:变量方差.)
    prior 平均值的可选共轭先验
    control EM 的控制参数列表,默认为List
示例
install.packages(“mclust”)
library(mclust)
data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")  ##iris数据
fit <- Mclust(data)  ##用EM计算最优匹配
fit
summary(fit)
plot(fit)

log.likelihood:BIC数值的对数似然值
n:数据量
df:自由度
BIC:最优贝叶斯信息准则
ICL:集成完全数据似然值(ICL与BIC相同,即可对数据点进行分类)
plot中有四类图

  • 用于选择集群数量的BIC数值:用不同的模型表现BIC的情况,多变量实例中,最不适合使用VEV模型。
  • 有关聚类的图:选取提供数据最优聚类的分量(x5.1和x1.4会产生距离最近的集群)。
  • 有关分类不确定性的图:不同选择对聚类迭代的影响。
  • 有关集群的轨道图:每个集群的轨道图,突出显示中心点可能会出现在哪个地方。
1.1.5 密度估计

density(密度估计)、DBSCAN(确定固定点集群的聚类)、OPTICS(确定广泛分布集群的聚类)函数

用法

density()

  • 参数
    x 矩阵
    bw 使用的平滑带宽
    adjust 倍增器,用于调节带宽
    kernel 平滑核心(gaussian、rectangle、trianglar、epanechnikov、biweight、cosine、optcosine)
    weights 与x长度一致的权向量
    give.Rkern TRUE表示未预估参数
    N 预估的密度点数
    from,to 最左边点和最右边点
    na.rm TRUE 表示移除缺失值
    bw.nrd0(x)/bw.nrd(x)/bw.ucv(x)/bw.bcv(x)/bw.SJ(x)
示例
data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")
#计算X5.1的密度
d <- density(data$X5.1)
d
plot(d)

1.2 异常检测

统计测试,基于深度、偏差、距离、密度的方法,高维方法。

1.2.1 显示异常值
示例 1
identify(in boxplot)  #identify函数便于标记散点图的点,boxplot生成盒须图
---------------------------------------------------------------------
y <- rnorm(100)
boxplot(y)
identify(rep(1, length(y)), y, labels = seq_along(y))
示例 2

boxplot函数会自动计算数据集的异常值

x <- rnorm(100)
summary(x)
boxplot.stats(x)$out  ##显示异常值
boxplot(x)
boxplot(mpg~cyl,data=mtcars, xlab="Cylinders", ylab="MPG") ##汽车的数据示例
示例 3

二维的箱线图异常检测(并集而非交集)

x <- rnorm(1000);y <- rnorm(1000)
f <- data.frame(x,y)
a <- boxplot.stats(x)$out;b <- boxplot.stats(y)$out
list <- union(a,b)
plot(f)
px <- f[f$x %in% a,];py <- f[f$y %in% b,]
p <- rbind(px,py)
par(new=TRUE)
plot(p$x, p$y,cex=2,col=2)
#结果并不准确,需结合实际
1.2.2 计算异常值
示例 1(用name函数创建异常)
data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")
outliers <- function(data, low, high) {
outs <- subset(data, data$X5.1 < low | data$X5.1 > high)
return(outs)
}
outliers(data, 4.5, 7.5)  ## <4.5,>7.5为异常
示例 2(DMwR中的lofactor函数)
install.packages(“DMwR”)
library(DMwR)
nospecies <- data[,1:4]  ##移除“种类”列
scores <- lofactor(nospecies, k=3)   #确定异常值
plot(density(scores)) #画出异常值分布

1.3 关联规则(购物篮分析)

apriori()

用法
  • 参数
    data 事务数据
    parameter 默认支持度0.1、置信度0.8、最大长度10
    appearance 用于限制规则中出现的项目
    control 用于调整所用算法的性能
示例
install.packages("arules")
library(arules)
data <- read.csv("http://www.salemmarafi.com/wp-ontent/uploads/2014/03/groceries.csv")
rules <- apriori(data) ;rules  #生成规则
##置信度默认为0.8,三个项目中有15295个事务,有五个规则
inspect(rules)
rules <- apriori(data, parameter = list(supp = 0.001, conf = 0.8))  #当参数修改后,生成500多个规则,但是置信度为0.001

这篇关于看书标记【数据科学:R语言实战 1】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/650813

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

Python并行处理实战之如何使用ProcessPoolExecutor加速计算

《Python并行处理实战之如何使用ProcessPoolExecutor加速计算》Python提供了多种并行处理的方式,其中concurrent.futures模块的ProcessPoolExecu... 目录简介完整代码示例代码解释1. 导入必要的模块2. 定义处理函数3. 主函数4. 生成数字列表5.

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

Go语言中泄漏缓冲区的问题解决

《Go语言中泄漏缓冲区的问题解决》缓冲区是一种常见的数据结构,常被用于在不同的并发单元之间传递数据,然而,若缓冲区使用不当,就可能引发泄漏缓冲区问题,本文就来介绍一下问题的解决,感兴趣的可以了解一下... 目录引言泄漏缓冲区的基本概念代码示例:泄漏缓冲区的产生项目场景:Web 服务器中的请求缓冲场景描述代码

Go语言如何判断两张图片的相似度

《Go语言如何判断两张图片的相似度》这篇文章主要为大家详细介绍了Go语言如何中实现判断两张图片的相似度的两种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 在介绍技术细节前,我们先来看看图片对比在哪些场景下可以用得到:图片去重:自动删除重复图片,为存储空间"瘦身"。想象你是一个

Go语言中Recover机制的使用

《Go语言中Recover机制的使用》Go语言的recover机制通过defer函数捕获panic,实现异常恢复与程序稳定性,具有一定的参考价值,感兴趣的可以了解一下... 目录引言Recover 的基本概念基本代码示例简单的 Recover 示例嵌套函数中的 Recover项目场景中的应用Web 服务器中

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=