时间序列数据挖掘--机器学习+统计学方法+kdd论文(二)

2024-04-21 16:18

本文主要是介绍时间序列数据挖掘--机器学习+统计学方法+kdd论文(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

时间序列数据挖掘(二)

  • 机器学习+统计学+kdd1718论文
    • 机器学习下的时间序列
      • RNN
        • RNN使用领域
      • LSTM
    • 统计学下的时间序列
      • ARIMA
        • ARIMA的含义
        • 模型前提:平稳
        • ARIMA的数学形式
        • ARIMA模型建立步骤
        • 一些细节

机器学习+统计学+kdd1718论文

第二篇博客,接着上面的笔记写。
上一篇因为操作失误没有保存简直太失败了,这次要注意点。
这一篇主要记录我从统计学模型的角度学习时间序列模型。
因为我不是统计学学生,所以很多知识我都不是很了解,这篇博客的内容都是我现学习的,所以算是一个学习笔记吧。

机器学习下的时间序列

RNN

RNN使用领域

LSTM

统计学下的时间序列

我在网上看,常用的时间序列模型有四种:自回归模型 AR§、移动平均模型 MA(q)、自回归移动平均模型 ARMA(p,q)、自回归差分移动平均模型 ARIMA(p,d,q), 可以说前三种都是 ARIMA(p,d,q)模型的特殊形式。

ARIMA

ARIMA的含义

ARIMA包含3个部分:AR、I、MA。可见,ARIMA模型实际上是AR模型和MA模型的组合

  1. AR: auto regression,即自回归模型
  2. I: integration,即单整阶数,平稳分析后得到几阶单整
  3. MA: moving average,即移动平均模型。
模型前提:平稳

比如股票数据用ARIMA无法预测的原因就是股票数据是非稳定的,常常受政策和新闻的影响而波动。

  1. 平稳的时间序列,非平稳序列直接进行分析,会有伪回归问题。
  2. 检验时间平稳的方法: ADF 单位根检验(如果时间序列不稳定,也可以通过一些操作如log,差分等使得时间序列稳定,此时在 ARIMA 要将结果进行逆操作如取指数,差分的逆操作,可以得到原始数据的预测结果)
  3. ADF 单位检验:若时间序列模型中含有单位根,则模型是非平稳的。核心是单位根检验,具体的单位根检验的学习内容:
    https://wenku.baidu.com/view/b18e720b19e8b8f67c1cb9ec.html
    平稳性的定义:
    我感觉简而言之就是:一个时间序列的随机变量是稳定的,当且仅当它的所有统计特征都是独立于时间的(是关于时间的常量)。
    稳定的数据是没有趋势(trend),没有周期性(seasonality)的; 即它的均值,在时间轴上拥有常量的振幅,并且它的方差,在时间轴上是趋于同一个稳定的值的。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    使用t假设检验,当t统计量大于假设检验临界值(5%等),则接受零假设,序列不平稳;当小于临界值,则拒绝了零假设,则序列是平稳的。
    一个例子:
    使用python对某个时间序列数据进行检验,结果如下(看p-value):在这里插入图片描述
    在这里插入图片描述
    上述例子来源:
    https://www.jianshu.com/p/4130bac8ebec
ARIMA的数学形式

ARIMA(p,d,q)模型有三个参数:p,d,q

  1. p:AR/Auto-Regressive项,代表预测模型中采用的时序数据本身的滞后数(lags)
  2. d:Integrated项,代表时序数据需要进行几阶差分化,才是稳定的
  3. q:MA/Moving Average项,代表预测模型中采用的预测误差的滞后数(lags)

数学形式:
在这里插入图片描述
y表示因变量Y的差分:
在这里插入图片描述
此模型可以描述为三个部分:常数+多个时间的加权和(AR模型)+多个时间的预测误差(MA模型)

几个特列

  1. ARIMA(0,1,0) = random walk
    在这里插入图片描述
  2. ARIMA(1,0,0) = first-order autoregressive model
    在这里插入图片描述
  3. ARIMA(1,1,0) = differenced first-order autoregressive model
    在这里插入图片描述
  4. ARIMA(0,1,1) = simple exponential smoothing with growth
    在这里插入图片描述
    更多例子详见:
    https://www.cnblogs.com/bradleon/p/6827109.html
ARIMA模型建立步骤
  1. 平稳检验,得到d值:若本身序列是平稳的则d=0,若一阶差分是平稳的则d=1,以此类推。
  2. 将平稳序列画出ACF,PACF图像,得出p,q值:p的值就是ACF第一次穿过上置信区间时的横轴值,q的值就是PACF第一次穿过上置信区间的横轴值(要对平稳时间序列分别求得其自相关系数ACF 和偏自相关系数PACF,通过对自相关图和偏自相关图的分析,得到最佳的阶层 p 和阶数 q)
  3. 将得到的d,p,q带入求出ARIMA模型公式:通过数据拟合出模型的函数表达式(得到参数)
  4. 使用拟合的函数可以进行预测
    在这里插入图片描述
    示例图是一个例子中的ARIMA的函数图,蓝线是输入数据,红线是拟合的值,我们使用红线就可以预测出之后的值。
    但要注意此时的出的预测是一阶差分的预测,因此需要逆求出真实值。
    上述具体的例子:
    https://www.cnblogs.com/bradleon/p/6832867.html
一些细节

对ARIMA模型一个更简洁的表述:
在这里插入图片描述
链接:https://blog.csdn.net/chanbupt/article/details/70448147

AR自回归模型
是用自身做回归变量的过程,即利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型.
在这里插入图片描述
MA移动平均模型
MA模型和AR大同小异,它并非是历史时序值的线性组合而是历史白噪声的线性组合。与AR最大的不同之处在于,AR模型中历史白噪声的影响是间接影响当前预测值的(通过影响历史时序值)。
MA模型使用不同阶滞后的白噪音拟合。
在这里插入图片描述
白噪声的期望是0,方差为常数。
白噪声的定义:
对于一个随机变量X(t)(t=1,2,3……),如果是由一个不相关的随机变量的序列构成的,即对于所有s不等于t,随机变量X(t)和X(s)的协方差为零,则称其为纯随机过程。对于一个纯随机过程来说,若其期望为0,方差为常数,则称之为白噪声过程。

这篇关于时间序列数据挖掘--机器学习+统计学方法+kdd论文(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/923514

相关文章

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原

Java获取当前时间String类型和Date类型方式

《Java获取当前时间String类型和Date类型方式》:本文主要介绍Java获取当前时间String类型和Date类型方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录Java获取当前时间String和Date类型String类型和Date类型输出结果总结Java获取

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

Spring Boot从main方法到内嵌Tomcat的全过程(自动化流程)

《SpringBoot从main方法到内嵌Tomcat的全过程(自动化流程)》SpringBoot启动始于main方法,创建SpringApplication实例,初始化上下文,准备环境,刷新容器并... 目录1. 入口:main方法2. SpringApplication初始化2.1 构造阶段3. 运行阶

Olingo分析和实践之ODataImpl详细分析(重要方法详解)

《Olingo分析和实践之ODataImpl详细分析(重要方法详解)》ODataImpl.java是ApacheOlingoOData框架的核心工厂类,负责创建序列化器、反序列化器和处理器等组件,... 目录概述主要职责类结构与继承关系核心功能分析1. 序列化器管理2. 反序列化器管理3. 处理器管理重要方

Python错误AttributeError: 'NoneType' object has no attribute问题的彻底解决方法

《Python错误AttributeError:NoneTypeobjecthasnoattribute问题的彻底解决方法》在Python项目开发和调试过程中,经常会碰到这样一个异常信息... 目录问题背景与概述错误解读:AttributeError: 'NoneType' object has no at