局部加权回归(Lowess)算法详解

2024-05-15 12:29

本文主要是介绍局部加权回归(Lowess)算法详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 一、适用任务
    • 1.1 预测问题
    • 1.2 平滑问题
  • 二、算法介绍
    • 2.1 算法思想
    • 2.2 参数讲解
    • 2.3 代码实现
  • 参考资料

Lowess局部加权回归算法的主要思想为:在数据集合的每一点用低维多项式拟合数据点的一个子集,并估计该点附近自变量数据点所对应的因变量值,该多项式是用加权最小二乘法来拟合;离该点越远,权重越小。

该点的回归函数值就是由这个局部多项式得到,而用于加权最小二乘回归的数据子集是由最近邻方法确定。

LOWESS (locally weighted scatterplot smoothing) :
methods that combine multiple regression models in a k-nearest-neighbor-based meta-model. LOESS is a later generalization of LOWESS; although it is not a true acronym, it may be understood as standing for “LOcal regrESSion”

一、适用任务

1.1 预测问题

对于预测问题,回归中最简单的线性回归,是以线性的方法拟合出数据的趋势。但是对于有周期性,波动性的数据,并不能简单以线性的方式拟合,否则模型会偏差较大,而局部加权回归(lowess)能较好的处理这种问题。可以拟合出一条符合整体趋势的线,进而做预测。

1.2 平滑问题

局部加权回归(lowess)能较好的解决平滑问题。 在做数据平滑的时候,会有遇到有趋势或者季节性的数据,对于这样的数据,我们不能使用简单的均值正负3倍标准差以外做异常值剔除,需要考虑到趋势性等条件。使用局部加权回归,可以拟合一条趋势线,将该线作为基线,偏离基线距离较远的则是真正的异常值点。

实际上,局部加权回归(Lowess)主要还是处理平滑问题的多,因为预测问题,可以有更多模型做的更精确。但就平滑来说,Lowess很直观而且很有说服力。

二、算法介绍

2.1 算法思想

局部加权回归(Lowess)的大致思路是:以一个点 x x x 为中心,向前后截取一段长度为 f r a c frac frac 的数据,对于该段数据用权值函数 w w w 做一个加权的线性回归,记 ( x , y ^ ) (x,\hat{y}) (x,y^) 为该回归线的中心值,其中 y ^ \hat{y} y^ 为拟合后曲线对应值。对于所有的 n n n 个数据点则可以做出 n n n 条加权回归线,每条回归线的中心值的连线则为这段数据的Lowess曲线。

2.2 参数讲解

在这个思路中,能提取出的可调参数则是:
1.长度frac,应该截取多长的作为局部处理,frac 为原数据量的比例;
2.权值函数w,使用什么样的权值函数w合适;
3.迭代次数it,在进行一次局部回归后,是否需要迭代,再次做回归;
4.delta回归间隔,是否真的每个点都需要算一次加权回归,能否隔delta距离算一次,中间没算的用插值替换即可。

2.3 代码实现

基于lowess局部加权回归对周期型波动性数据进行拟合及平滑,实现代码如下:

from statsmodels.nonparametric.smoothers_lowess import lowesssmooth_data = lowess(y, x, frac=0.5, it=3, delta=0.0)))

lowess函数中参数的具体定义如下:

def lowess(endog, exog, frac=2.0/3.0, it=3, delta=0.0, xvals=None, is_sorted=False, missing='drop', return_sorted=True):'''LOWESS (Locally Weighted Scatterplot Smoothing)A lowess function that outs smoothed estimates of endogat the given exog values from points (exog, endog)Parameters----------endog : 1-D numpy arrayThe y-values of the observed pointsexog : 1-D numpy arrayThe x-values of the observed pointsfrac : floatBetween 0 and 1. The fraction of the data usedwhen estimating each y-value.it : intThe number of residual-based reweightingsto perform.delta : floatDistance within which to use linear-interpolationinstead of weighted regression.xvals: 1-D numpy arrayValues of the exogenous variable at which to evaluate the regression.If supplied, cannot use delta.is_sorted : boolIf False (default), then the data will be sorted by exog beforecalculating lowess. If True, then it is assumed that the data isalready sorted by exog. If xvals is specified, then it too must besorted if is_sorted is True.missing : strAvailable options are 'none', 'drop', and 'raise'. If 'none', no nanchecking is done. If 'drop', any observations with nans are dropped.If 'raise', an error is raised. Default is 'drop'.return_sorted : boolIf True (default), then the returned array is sorted by exog and hasmissing (nan or infinite) observations removed.If False, then the returned array is in the same length and the samesequence of observations as the input array.Returns-------out : {ndarray, float}The returned array is two-dimensional if return_sorted is True, andone dimensional if return_sorted is False.If return_sorted is True, then a numpy array with two columns. Thefirst column contains the sorted x (exog) values and the second columnthe associated estimated y (endog) values.If return_sorted is False, then only the fitted values are returned,and the observations will be in the same order as the input arrays.If xvals is provided, then return_sorted is ignored and the returnedarray is always one dimensional, containing the y values fitted atthe x values provided by xvals.'''-----

在statsmodels中,你会发现:
1、权值w函数你是不可调的;
2、在用了delta 之后,插值函数你是不可调的。

参考资料

  • 【算法】局部加权回归(Lowess)

这篇关于局部加权回归(Lowess)算法详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/991836

相关文章

Linux之platform平台设备驱动详解

《Linux之platform平台设备驱动详解》Linux设备驱动模型中,Platform总线作为虚拟总线统一管理无物理总线依赖的嵌入式设备,通过platform_driver和platform_de... 目录platform驱动注册platform设备注册设备树Platform驱动和设备的关系总结在 l

Olingo分析和实践之EDM 辅助序列化器详解(最佳实践)

《Olingo分析和实践之EDM辅助序列化器详解(最佳实践)》EDM辅助序列化器是ApacheOlingoOData框架中无需完整EDM模型的智能序列化工具,通过运行时类型推断实现灵活数据转换,适用... 目录概念与定义什么是 EDM 辅助序列化器?核心概念设计目标核心特点1. EDM 信息可选2. 智能类

Olingo分析和实践之ODataImpl详细分析(重要方法详解)

《Olingo分析和实践之ODataImpl详细分析(重要方法详解)》ODataImpl.java是ApacheOlingoOData框架的核心工厂类,负责创建序列化器、反序列化器和处理器等组件,... 目录概述主要职责类结构与继承关系核心功能分析1. 序列化器管理2. 反序列化器管理3. 处理器管理重要方

从入门到精通详解LangChain加载HTML内容的全攻略

《从入门到精通详解LangChain加载HTML内容的全攻略》这篇文章主要为大家详细介绍了如何用LangChain优雅地处理HTML内容,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录引言:当大语言模型遇见html一、HTML加载器为什么需要专门的HTML加载器核心加载器对比表二

Python使用openpyxl读取Excel的操作详解

《Python使用openpyxl读取Excel的操作详解》本文介绍了使用Python的openpyxl库进行Excel文件的创建、读写、数据操作、工作簿与工作表管理,包括创建工作簿、加载工作簿、操作... 目录1 概述1.1 图示1.2 安装第三方库2 工作簿 workbook2.1 创建:Workboo

Python实现中文文本处理与分析程序的示例详解

《Python实现中文文本处理与分析程序的示例详解》在当今信息爆炸的时代,文本数据的处理与分析成为了数据科学领域的重要课题,本文将使用Python开发一款基于Python的中文文本处理与分析程序,希望... 目录一、程序概述二、主要功能解析2.1 文件操作2.2 基础分析2.3 高级分析2.4 可视化2.5

Java实现预览与打印功能详解

《Java实现预览与打印功能详解》在Java中,打印功能主要依赖java.awt.print包,该包提供了与打印相关的一些关键类,比如PrinterJob和PageFormat,它们构成... 目录Java 打印系统概述打印预览与设置使用 PageFormat 和 PrinterJob 类设置页面格式与纸张

MySQL 8 中的一个强大功能 JSON_TABLE示例详解

《MySQL8中的一个强大功能JSON_TABLE示例详解》JSON_TABLE是MySQL8中引入的一个强大功能,它允许用户将JSON数据转换为关系表格式,从而可以更方便地在SQL查询中处理J... 目录基本语法示例示例查询解释应用场景不适用场景1. ‌jsON 数据结构过于复杂或动态变化‌2. ‌性能要

Python实现终端清屏的几种方式详解

《Python实现终端清屏的几种方式详解》在使用Python进行终端交互式编程时,我们经常需要清空当前终端屏幕的内容,本文为大家整理了几种常见的实现方法,有需要的小伙伴可以参考下... 目录方法一:使用 `os` 模块调用系统命令方法二:使用 `subprocess` 模块执行命令方法三:打印多个换行符模拟

MySQL字符串常用函数详解

《MySQL字符串常用函数详解》本文给大家介绍MySQL字符串常用函数,本文结合实例代码给大家介绍的非常详细,对大家学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql字符串常用函数一、获取二、大小写转换三、拼接四、截取五、比较、反转、替换六、去空白、填充MySQL字符串常用函数一、