R语言回归和主成分PCA 回归交叉验证分析预测城市犯罪率

2023-11-06 14:50

本文主要是介绍R语言回归和主成分PCA 回归交叉验证分析预测城市犯罪率,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近我们被客户要求撰写关于回归和主成分PCA的研究报告,包括一些图形和统计输出。

在本文中,我解释了基本回归,并介绍了主成分分析 (PCA) 使用回归来预测城市中观察到的犯罪率。我还应用 PCA 创建了一个回归模型,用于使用前几个主成分对相同的犯罪数据进行建模。最后,我对两种模型的结果进行了比较,看看哪个表现更好。

 主成分分析PCA降维方法和R语言分析葡萄酒可视化实例

主成分分析PCA降维方法和R语言分析葡萄酒可视化实例

,时长04:30

回归有助于显示因素和因变量之间的关系,它基本上回答了两种类型的问题;1. 吸烟对癌症的影响 2. 未来会发生什么?(例如)三年后的油价。

数据

犯罪学家对惩罚制度对犯罪率的影响感兴趣。已使用汇总数据对此进行了研究。数据集包含以下列:

变量描述
M:  14-24岁的男性在总人口中的百分比
So:  南方州的指标变量
Ed:  25岁或以上人口的平均受教育年限
Po1: 年警察保护的人均支出
Po2: 去年警察保护的人均支出
LF: 14-24岁年龄组的城市男性平民的劳动力参与率
M.F: 每100名女性的男性人数
Pop: 国家人口,以十万计
NW: 非白人在人口中的百分比
U1: 14-24岁城市男性的失业率
U2: 城市男性35-39岁的失业率
财富财富:可转让资产或家庭收入的中值
收入不平等:收入低于中位数一半的家庭的百分比
入狱概率:入狱人数与犯罪人数的比率
时间: 罪犯在首次获释前在国家监狱中服刑的平均时间(月)。
犯罪: 犯罪率:每10万人口中的犯罪数量

我们将数据集导入R环境

read("crim.txt")

检查变量是否正确

head(crim) #所有的变量都是预测因素,只有犯罪是因变量。

我们正在尝试使用整个数据集来构建回归模型来进行预测。创建简单的回归模型


summary(model)

使用数据框架来手动创建我们的数据点测试,然后在测试数据上运行一些预测。


primodl <- predict(mdl, test)primodl 

输出值不到下一个最低城市的犯罪率的一半,所以我将创建第二个模型,观察它的输出并画出比较。

创建第二个模型


sumry(son_mel)

我们现在可以对第二个模型进行预测了

pic_secn_mel<- prict(sed_odel, tst)pic_secn_mel

与第一个模型相比,其结果明显更高。所以,它更合理。

交叉验证

我们可以做一个5折的交叉验证。

cv(se,m=5)

我们可以得到数据和其平均值之间的平方差的总和

 sum((Cm- mean(ui))^2)

我们可以得到模型1、模型2和交叉验证的平方残差之和

SSrl <- sum(res^2)

SSre <- sum(resi^2)

res <- "ms")*nrow

我们也可以计算出3个模型的R平方值

 1 -res/tot

1-res/SS

 1-res/SS

获得的R平方值表明我们的拟合质量很好。对于惩罚性回归,有必要对数据进行标准化,以确保所有的特征都受到同等的惩罚。但在线性回归的情况下,这其实并不重要。它将只是转移截距和系数,但相关关系保持不变。

PCA

PCA是一种用于描述变化的方法,显示数据集中的强相关性,从而使其易于探索和可视化数据。PCA通过以下方式对数据进行转换:(1)去除数据中的相关关系(2)按重要性对坐标进行排序。

我们可以检查crime数据的预测变量之间的相关性。

pairs(srm,c("o",Ed"o"))


对数据集中的所有预测变量应用PCA。请注意,为了获得更准确的PCA结果,需要对这些变量进行标准化。


sumr(pca)
rotan #PCA旋转是特征向量的矩阵
pca

然后,我们可以通过绘制每个主成分的方差来决定在 "前几个 "主成分中使用多少个主成分。

plotpcaye ="ie")

要确定使用多少PC?我们可以尝试使用5个主成分作为开始。

pcax[,1:5]

使用前五个PC,我们可以继续建立一个线性回归模型。

summary(mdPCA)

为了根据原始变量重建模型,首先我们从PCA线性回归模型中获得系数,之后通过使用主成分的特征向量将PCA成分系数转化为原始变量的系数。

PCA线性回归的系数

coefficients[1]
coefficients[2:6]beta0 #截距

转换

rot %*% betat(alpha) # 标准化的数据系数

获得未标准化数据的系数。

 ahusl <- ahs / sppy(u[,1:15],sd)ba0cl <- ea0 - sum/sapply(sd))

未标准化数据的系数

 t(alas_sled)be0uced

#我们可以得到我们的未标准化数据的估计值as.marx %*% unscle + beta0aled

最后,为了比较使用PCA的模型和使用回归的模型的质量,我们必须计算R-squared和调整后的R-squared,并将这些数值与前一个模型的数值进行比较。调整后的R平方考虑了模型中预测因子的数量。

Rsquared <- 1 - SSE/SST # R-squared

使用所有变量的无PCA的先前线性回归模型

summary(dlLR)

R-squared 和调整后的 R-squared 值都较高,这表明至少对于使用前五个主成分的模型,具有 PCA 的线性回归模型优于没有 PCA 的线性回归模型。为了检查使用不同数量的前 n 个主成分的线性回归模型是否产生了更好的拟合模型,我们可以使用循环并进一步进行交叉验证。


这篇关于R语言回归和主成分PCA 回归交叉验证分析预测城市犯罪率的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/357259

相关文章

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

Go语言中泄漏缓冲区的问题解决

《Go语言中泄漏缓冲区的问题解决》缓冲区是一种常见的数据结构,常被用于在不同的并发单元之间传递数据,然而,若缓冲区使用不当,就可能引发泄漏缓冲区问题,本文就来介绍一下问题的解决,感兴趣的可以了解一下... 目录引言泄漏缓冲区的基本概念代码示例:泄漏缓冲区的产生项目场景:Web 服务器中的请求缓冲场景描述代码

Go语言如何判断两张图片的相似度

《Go语言如何判断两张图片的相似度》这篇文章主要为大家详细介绍了Go语言如何中实现判断两张图片的相似度的两种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 在介绍技术细节前,我们先来看看图片对比在哪些场景下可以用得到:图片去重:自动删除重复图片,为存储空间"瘦身"。想象你是一个

Go语言中Recover机制的使用

《Go语言中Recover机制的使用》Go语言的recover机制通过defer函数捕获panic,实现异常恢复与程序稳定性,具有一定的参考价值,感兴趣的可以了解一下... 目录引言Recover 的基本概念基本代码示例简单的 Recover 示例嵌套函数中的 Recover项目场景中的应用Web 服务器中

github打不开的问题分析及解决

《github打不开的问题分析及解决》:本文主要介绍github打不开的问题分析及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、找到github.com域名解析的ip地址二、找到github.global.ssl.fastly.net网址解析的ip地址三

Mysql的主从同步/复制的原理分析

《Mysql的主从同步/复制的原理分析》:本文主要介绍Mysql的主从同步/复制的原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录为什么要主从同步?mysql主从同步架构有哪些?Mysql主从复制的原理/整体流程级联复制架构为什么好?Mysql主从复制注意

java -jar命令运行 jar包时运行外部依赖jar包的场景分析

《java-jar命令运行jar包时运行外部依赖jar包的场景分析》:本文主要介绍java-jar命令运行jar包时运行外部依赖jar包的场景分析,本文给大家介绍的非常详细,对大家的学习或工作... 目录Java -jar命令运行 jar包时如何运行外部依赖jar包场景:解决:方法一、启动参数添加: -Xb

Apache 高级配置实战之从连接保持到日志分析的完整指南

《Apache高级配置实战之从连接保持到日志分析的完整指南》本文带你从连接保持优化开始,一路走到访问控制和日志管理,最后用AWStats来分析网站数据,对Apache配置日志分析相关知识感兴趣的朋友... 目录Apache 高级配置实战:从连接保持到日志分析的完整指南前言 一、Apache 连接保持 - 性

Linux中的more 和 less区别对比分析

《Linux中的more和less区别对比分析》在Linux/Unix系统中,more和less都是用于分页查看文本文件的命令,但less是more的增强版,功能更强大,:本文主要介绍Linu... 目录1. 基础功能对比2. 常用操作对比less 的操作3. 实际使用示例4. 为什么推荐 less?5.