R语言实战——中国职工平均工资的变化分析——相关与回归分析

2024-05-05 23:20

本文主要是介绍R语言实战——中国职工平均工资的变化分析——相关与回归分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

链接:
R语言学习—1—将数据框中某一列数据改成行名
R语言学习—2—安德鲁斯曲线分析时间序列数据
R语言学习—3—基本操作
R语言学习—4—数据矩阵及R表示
R语言的学习—5—多元数据直观表示
R语言学习—6—多元相关与回归分析

1、源数据

各行业平均工资变化
在这里插入图片描述
各地区平均工资变化
在这里插入图片描述
全国平均工资变化
在这里插入图片描述

2、数据导入与预处理

在这里插入图片描述

导入数据

行业工资
在这里插入图片描述
地区工资
在这里插入图片描述
检查发现
在这里插入图片描述
在这里插入图片描述

处理结果

在这里插入图片描述
在这里插入图片描述

3、汇总统计

在这里插入图片描述
在这里插入图片描述

4、真实值可视化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5、相关矩阵

行业工资相关矩阵

在这里插入图片描述
在这里插入图片描述

结论

1.大多数行业之间的相关性较高,特别是I业相关的行业,如"agricult"、“explore”、 “manufact”、 “electric” 等,它们之间的相关系数都接近1,这表明它们的工资水
平变化很可能相互关联。
2.与其他行业相比,“others” 与大多数行业的相关性较低,相关系数都在0.5左右。这可能意味着它的工资水平与其他行业的工资水平变化关系较弱。
3. “wellfare"和"educatio”、“research”、 “governme” 之间的相关性相对较高,这可能反映了教育、研究和政府部门之间的相互关联。

地区工资相关矩阵

在这里插入图片描述

结论

1.大多数地区之间的相关性都比较高,特别是在接近1的值。这表明这些地区的工资水平变化很可能是相互关联的,即当一个地区的工资增加时,其他地区的工资也很可能增加,反之亦然。
2.每个地区与其他地区之间的相关性几乎都接近1,这可能反映了整体经济发展趋势的影响。例如,北京、上海、广东等经济发达地区之间的相关性较高,这符合它们在经济上相互依存的情况。
3.与其他地区相比,西藏的相关性较低,这可能是由于西藏的地理位置和经济结构与其他地区有较大的差异,导致其工资水平与其他地区的工资水平变化关系较弱。
4.青海与其他地区之间的相关性也较低,这可能是由于青海的经济发展水平相对较低,与其他地区相比,工资水平变化受到的影响较小。

5、相关矩阵散点图

行业工资矩阵散点图

在这里插入图片描述

地区工资矩阵散点图

在这里插入图片描述

6、相关性检验

1.相关系数和显著性检验(t值和p值) :
●相关系数给出了每对变量之间的相关性强度,范围在-1到1之间。值越接近1或-1,表示变量之间的相关性越强,正值表示正相关,负值表示负相关。
●t值是用于判断相关系数是否显著的统计量,如果t值越大,相关性越显著。通常t值的绝对值超过1.96 (对应p值小于0.05)可以认为相关性是显著的。
●p值用于衡量相关性是否显著,通常取值在0到1之间,p值小于显著性水平(例如0.05)时,相关性被认为是显著的。
2.解释:
●如果相关系数高且显著(t值大,p值小), 那么变量之间存在较强的线性相关性。
●如果相关系数低或者不显著,那么变量之间可能不存在线性相关性。
t值和p值可以帮助判断相关性是否由于随机因素弓|起的。

行业工资

在这里插入图片描述
在这里插入图片描述

结论

1.相关性强度: .
●各行业之间的平均工资存在较强的正相关性。如,"agricult"和"explore’之间的相关系数为0.9976,“manufact"和"explore"之 间的相关系数0.9919。这表明这些行业之间的平均工资很可能随着时间的推移而同时增加或减少。
2.显著性检验:
●大多数行业之间的平均I资相关性都是显著的,这表明它们之间的关系不太可能是由于随机因素导致的。
●但是,对于一些行业(如"others”) ,相关性可能不太显著,因为值较小,p值较大。
3.相关性方向:
●大多数行业之间的相关性是正向的,即平均工资随着时间的推移而同时增加或减少。这可以通过相关系数为正值来确定。
综上所述,这些结果暗示着各行业之间的平均工资具有较强的正相关性,这可能是由于宏观经济因素市场趋势或政策变化等因素的影响。

地区工资

在这里插入图片描述

结论

1.相关性强度:
●各地区之间的平均工资存在较强的正相关性。例如,"beijing"和"tianjin"之间的相关系数为0.9992, “zhejang"和"shandong"之间的相关 系数为0.9951。这表明不同地区之间的平均工资很可能随着时间的推移而同时增加或减少。
2.显著性检验:
●大多数地区之间的平均工资相关性都是显著的,这表明它们之间的关系不太可能是由于随机因素导致的。
●但是,对于一些地区(如"xizang"和"qinghai”) ,相关性可能不太显著,因为t值较小,p值较大。
3.相关性方向:
●大多数地区之间的相关性是正向的,即平均工资随着时间的推移而同时增加或减少。这可以通过相关系数为正值来确定。
综上所述,这些结果暗示着各地区之间的平均工资具有较强的正相关性,这可能是由于宏观经济因素、地区发展水平、人口密度等因素的影响。

7、回归分析与检验

行业工资

(1)一元线性回归及显著性检验

代码分析

在这里插入图片描述

各行业的标准回归系数汇总对比

在这里插入图片描述

结果分析与结论——以government为例

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

1.方程:
●模型的回归方程是:政府部门]平均工资= -927516.1 + 468.0*年份。
●这意味着政府部门平均工资的截距为-927516.1,每年平均增加468.0。
2.拟合优度:
●模型的多重决定系数为0.7935,表示约79.35%的政府部门平均工资的变异性可以通过年份来解释。
●考虑到模型中的自变数量,调整后的决定系数为0.779,说明模型的拟合效果良好。
3.回归系数:
●年份的回归系数为0.8908,示每年政府部]平均工资的预期增加量。
●对于年份的回归系数进行的t检验显示,这个系数是显著的(p值为3.7e-06) , 表明年份对政府部门平均工资的影响是显著的。
4.方差分析:
●方差分析表明年份对政府部门平均工资的影响是显著的(p值为3.7e-06) 。

综上所述,该模型表明政府部门平均工资随着时间的推移呈上升趋势,且时间对政府部门]平均工资的影响是显著的。

剩余十五个结果结构同上,不再赘述

(2)回归结果可视化

散点图代表真实值,线条表示回归方程
在这里插入图片描述

从图中不难发现这并不是一个理想的模型

(3)改进——三次多项式回归及显著性检验

代码结构同上

在这里插入图片描述

各行业的标准回归系数汇总对比

在这里插入图片描述

结果分析与结论——以government为例

在这里插入图片描述
在这里插入图片描述
1.回归方程:
●模型的回归方程是:政府部门平均工资= 4873.2 + 12254.9年份- 6087.8年份^2 + 839.3*年份^3。
●这个方程包含了年份的三次多项式,因此可以更灵活地拟合数据。
2.拟合优度:
●模型的多重决定系数为0.993,表示约99.3%的政府部i ]平均工资的变异性可以通过这个多项式模
型来解释。
●调整后的决定系数为0.991,说明模型的拟合效果非常好。
3.回归系数: .
●poly(年份, 3)1对应的回归系数为0.8908,表示政府部门]平均工资随时间的增加量。
●poly(年份, 3)2对应的回归系数为0.4425,表示政府部门]平均工资随时间的增加速度的变化。
●poly(年份, 3)3对应的回归系数为0.0610,表示政府部门]平均工资随时间增加速度的变化率的变化
率。
4.方差分析: .
●F-statistic为573, p-value为3.26e-13, 表明模型的回归方程显著。

综上所述,这个多项式回归模型说明政府部门]平均工资随着时间的推移呈现出非线性的变化趋势,且模型的拟合效果非常好,可以很好地解释数据的变化。

(4)改进后的回归结果可视化

在这里插入图片描述
明显拟合效果提高

地区工资

(1)一元线性回归及显著性检验

代码结构同上不再赘述

各地区的标准回归系数汇总对比

在这里插入图片描述

结果分析与结论

在这里插入图片描述
在这里插入图片描述

结论

1.回归方程:
●模型的回归方程是:地区平均工资= -886959.1 + 447.2★年份。
●这个方程表示地区平均工资随着年份的增加而增加,斜率为447.2, 表示每年平均工资增加447.2单
位。
2.拟合优度:
●模型的决定系数为0.903,表示约90.3%的地区平均工资的变异性可以通过这个线性模型来解释。
●调整后的决定系数为0.897,说明模型的拟合效果较好。
3.归系数:
●年份的回归系数为0.9505,表示地区平均工资随时间的增加量。
4.差分析:
●F-statistic为150, p-value为1.55e-09, 表明模型的回归方程显著。
5.复相关系数:
●数据的复相关系数为0.9505,表示年份与地区平均工资之间存在着强相关性。
综上所述,这个线性回归模型说明不同地区平均工资随着时间的推移呈现出线性增长的趋势,且模型的
拟合效果良好,可以很好地解释数据的变化。

(2)回归结果可视化

在这里插入图片描述

(3)改进——三次多项式回归

各地区的标准回归系数汇总对比

在这里插入图片描述

结果分析与结论

在这里插入图片描述
在这里插入图片描述

结论

1.回归方程:
●模型的回归方程是:西藏地区平均工资= 7269 + 26461年份+ 10355年份^2 + 3762*年份^3。
●这个方程表示西藏地区平均工资随着年份的增加而增加,且呈现出三次多项式的形式。
2.拟合优度:
●模型的决定系数为0.9799,表示约98.0%的西藏地区平均工资的变异性可以通过这个三次多项式模型来解释。
●调整后的决定系数为0.976,说明模型的拟合效果较好。
3.回归系数:
●模型中年份的各次项的回归系数为:
●年份: 0.9139
●年份^2: 0.3576
●年份^3:0.1299
●这些系数表示了年份与西藏地区平均工资之间的关系,以及年份的各次方对平均工资的影响。
4.方差分析:
●F-statistic为228, p-value为4.06e-12, 表明模型的回归方程显著。
5.复相关系数:
●模型的多项式数据复相关系数为0.9899,表示年份与西藏地区平均工资之间存在着强相关性。

综上所述,这个三次多项式回归模型说明西藏地区平均工资随着时间的推移呈现出一种复杂的非线性变化趋势,并且模型的拟合效果良好,可以很好地解释数据的变化。

(4)改进后的回归结果可视化

在这里插入图片描述

这篇关于R语言实战——中国职工平均工资的变化分析——相关与回归分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/962940

相关文章

精选20个好玩又实用的的Python实战项目(有图文代码)

《精选20个好玩又实用的的Python实战项目(有图文代码)》文章介绍了20个实用Python项目,涵盖游戏开发、工具应用、图像处理、机器学习等,使用Tkinter、PIL、OpenCV、Kivy等库... 目录① 猜字游戏② 闹钟③ 骰子模拟器④ 二维码⑤ 语言检测⑥ 加密和解密⑦ URL缩短⑧ 音乐播放

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

C语言中%zu的用法解读

《C语言中%zu的用法解读》size_t是无符号整数类型,用于表示对象大小或内存操作结果,%zu是C99标准中专为size_t设计的printf占位符,避免因类型不匹配导致错误,使用%u或%d可能引发... 目录size_t 类型与 %zu 占位符%zu 的用途替代占位符的风险兼容性说明其他相关占位符验证示

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

MySQL 内存使用率常用分析语句

《MySQL内存使用率常用分析语句》用户整理了MySQL内存占用过高的分析方法,涵盖操作系统层确认及数据库层bufferpool、内存模块差值、线程状态、performance_schema性能数据... 目录一、 OS层二、 DB层1. 全局情况2. 内存占js用详情最近连续遇到mysql内存占用过高导致

java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)

《java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)》:本文主要介绍java中pdf模版填充表单踩坑的相关资料,OpenPDF、iText、PDFBox是三... 目录准备Pdf模版方法1:itextpdf7填充表单(1)加入依赖(2)代码(3)遇到的问题方法2:pd

深度解析Nginx日志分析与499状态码问题解决

《深度解析Nginx日志分析与499状态码问题解决》在Web服务器运维和性能优化过程中,Nginx日志是排查问题的重要依据,本文将围绕Nginx日志分析、499状态码的成因、排查方法及解决方案展开讨论... 目录前言1. Nginx日志基础1.1 Nginx日志存放位置1.2 Nginx日志格式2. 499

C语言进阶(预处理命令详解)

《C语言进阶(预处理命令详解)》文章讲解了宏定义规范、头文件包含方式及条件编译应用,强调带参宏需加括号避免计算错误,头文件应声明函数原型以便主函数调用,条件编译通过宏定义控制代码编译,适用于测试与模块... 目录1.宏定义1.1不带参宏1.2带参宏2.头文件的包含2.1头文件中的内容2.2工程结构3.条件编

PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例

《PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例》词嵌入解决NLP维度灾难,捕捉语义关系,PyTorch的nn.Embedding模块提供灵活实现,支持参数配置、预训练及变长... 目录一、词嵌入(Word Embedding)简介为什么需要词嵌入?二、PyTorch中的nn.Em