R数据分析:如何做数据的非线性关系,多项式回归的做法和解释

本文主要是介绍R数据分析:如何做数据的非线性关系,多项式回归的做法和解释,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

线性关系其实是最常见也是最有效,同时还是最好解释的,不过变量间复杂的关系我们用多项式回归做出来可能会更加的准确。刚好有位粉丝的数据需要用到多项式回归,今天就给大家写写。

要理解非线性关系,首先我们看看线性关系,假设情况如下:商品的价格为p,销售量为q,总价为y,那么qy之间就是线性关系:

p <- 0.5
q <- seq(0,100,1)
y <- p*q
plot(q,y,type='l',col='red',main='线性关系')

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释

 

但是考虑现实中的情况:一个商品本来价格p是0.5,买的人多了价格会上涨,此时线性关系不成了哦:

y <- 450 + p*(q-10)^3
plot(q,y,type='l',col='navy',main='Nonlinear relationship',lwd=3)

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释

 

如果你得数据确实不是线性关系,就得考虑数据转化或者拟合多项式回归。

数据模拟

为了更好地给大家演示,我们需要模拟一个数据集出来:

q <- seq(from=0, to=20, by=0.1)
y <- 500 + 0.4 * (q-10)^3
noise <- rnorm(length(q), mean=10, sd=80)
noisy.y <- y + noise

上面的代码首先模拟200个销售量,和相应的总价y,同时还给y加了一点点噪声。

我们把模拟数据画出来瞅瞅:

plot(q,noisy.y,col='deepskyblue4',xlab='q',main='Observed data')
lines(q,y,col='firebrick1',lwd=3)

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释

 

注意我们用lines这个方法给数据串了一条趋势线,可以很明显的看出来我们的数据不是线性关系。

多项式回归

那么对于我们的数据我可以做如下的多项式回归:

model <- lm(noisy.y ~ poly(q,3))
model <- lm(noisy.y ~ x + I(X^2) + I(X^3))

上面两种方法都是一个道理,但是第一种可以很好的避免多重共线性问题,你想嘛,x的平方和x的三次方肯定高度相关啊。所以大家用第一种方法哦,输出结果如下:

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释

 

上面的结果中没有系数的置信区间,我们可以:

confint(model, level=0.95)

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释

 

我么还可以画出来模型的残差图:

plot(fitted(model),residuals(model))

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释

 

总的来说,我们的模型的R方为0.77,q的一次项和3次项都是有统计学意义的,模型还不错。

是不是可以用这个模型做预测呢?

这又涉及到机器学习了,往下看:

我们可以用训练的这个模型来预测我们的原始数据:

predicted.intervals <- predict(model,data.frame(x=q),interval='confidence',level=0.99)

你去查看predicted.intervals的值,你可以看到我们200个数据的预测值和置信区间。

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释

 

最好还是给大家可视化一下,我们打算把原始的趋势线和我们的置信区间的上下限都画在同一个图上:

lines(q,predicted.intervals[,1],col='green',lwd=3)
lines(q,predicted.intervals[,2],col='black',lwd=1)
lines(q,predicted.intervals[,3],col='black',lwd=1)

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释

 

可以看到上图中,我们的砖红色的线基本都在置信区间的上下限范围内,证明了模型不错。

 

这篇关于R数据分析:如何做数据的非线性关系,多项式回归的做法和解释的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/902443

相关文章

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient