核密度估计原理及sparkpython实现

2023-11-01 08:59

本文主要是介绍核密度估计原理及sparkpython实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

核密度估计属于非参数估计,它主要解决的问题就是在对总体样本的分布未知的情况,如何估计样本的概率分布。
像平时,我们经常也会用直方图来展示样本数据的分布情况,如下图:
在这里插入图片描述
但是,直方图有着明显的缺点:

  1. 非常不平滑,邻近的数据无法体现它们的差别;
  2. 不同的bins画出的直方图差别非常大;
  3. 无法计算概率密度值。

核密度估计

核密度估计就可以很好的解决直方图存在的问题,它的原理其实也很简单:当你需要估计一个点的概率密度值的时候,根据待估计点与每一个样本点的距离计算出一个密度值,距离越近,得到的密度值就越大,越远的话就越小,最后将所有密度值加权平均就得到该估计点在样本分布中的一个概率密度值了。
那为什么是这个原理呢?其实也很好理解,比如我们的该估计点处在样本点很密集的位置,不用算我们就自然就认为它的概率密度值也比较大。此时有许多样本点离待估计点很近,上面也说到离样本点的距离越近得到密度值就越大,那么也就意味着用于加权平均的密度值中有许多数值较大,算出来的最终密度值自然也会比较大。
具体公式如下:
在这里插入图片描述
y是待估计点,xi就是样本点,i=1,2,…,N
K(x;h)是带有参数h的核函数,这里h的作用决定了核函数估计出来的分布的平滑程度,h越大,分布就会越平滑。

多维数据的核密度估计

对于多维数据,在计算密度值的时候,需要对每个维度的密度值进行累乘,具体公式如下:
在这里插入图片描述
M就是数据的维度,y(j)是待估计点的第j维,x(i,j)是第i个样本点的第j维
但是,如果我们在对估计一个点的概率密度值的时候,如果将所有样本点都考虑进来计算的话,会非常的冗余。其实,我们可以就只考虑离待估计点比较相近的样本点,因为离得比较远的样本点,对该估计点的密度值贡献也非常小,甚至许多为0
在这里插入图片描述
如上图,我们利用核密度估计对一个为双峰正态分布的样本进行估计,可以看出,通过核密度估计得到的分布于实际分布还是比较接近,也可以看出不同的核函数,估计出来的分布也是差别的。

核函数

常见的函数主要有以下这些:
在这里插入图片描述
在这里插入图片描述

python实现

在python中实现核密度估计非常的简单,因为python已经提供了相关的API,直接调用就可以了。

from sklearn.neighbors.kde import KernelDensity
import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
kde = KernelDensity(kernel='gaussian', bandwidth=0.2).fit(X)
kde.score_samples(X)array([-0.41075698, -0.41075698, -0.41076071, -0.41075698, -0.41075698,-0.41076071])

其中,最重要就是这三个参数了。bandwidth是上面公式中的h,algorithm就是加速邻近点的搜索算法如KD-Tree等,kernel就是核函数的选择了。
在这里插入图片描述

Spark实现

其实,spark也提供相应的api。

import org.apache.spark.mllib.stat.KernelDensityval sample = sc.parallelize(Seq(0.0, 1.0, 4.0, 4.0))
val kd = new KernelDensity().setSample(sample).setBandwidth(3.0)
val densities = kd.estimate(Array(-1.0, 2.0, 5.0))

但是呢,spark_mllib提供的核密度估计api只支持高斯分布的核函数,最重要的是它只支持一维数据,不支持多维数据的估计

spark多维核密度估计实现

在这里,我自己通过对源码的修改,实现了对多维数据的支持。

  1. 首先,先修改setSample方法,让其能够接受多维的数据。
  /*** Sets the sample to use for density estimation.*/def setSample(sample: RDD[Array[Double]]): this.type = {this.sample = samplethis}/*** Sets the sample to use for density estimation (for Java users).*/def setSample(sample: JavaRDD[Array[Double]]): this.type = {this.sample = sample.rdd.asInstanceOf[RDD[Array[Double]]]this}
  1. 接下来,就是修改estimate方法,即概率密度值估计的计算方法
  /*** Estimates probability density function at the given array of points.*/def estimate(points: Array[Array[Double]]): Array[Double] = {val sample = this.sampleval bandwidth = this.bandwidthrequire(sample != null, "Must set sample before calling estimate.")val n = points.length// This gets used in each Gaussian PDF computation, so compute it up frontval logStandardDeviationPlusHalfLog2Pi = math.log(bandwidth) + 0.5 * math.log(2 * math.Pi)val (densities, count) = sample.aggregate((new Array[Double](n), 0L))(// y是对sample的遍历// x是存放每次返回的Tuple,初始值即为传入的(new Array[Double](n), 0L)// 每次都将上一轮返回的x作为这一轮的x输入(x, y) => {var i = 0while (i < n) {var multiply:Double = 1for (m <- 0 until y.length) {multiply *= normPdf(y(m), bandwidth, logStandardDeviationPlusHalfLog2Pi, points(i)(m))}x._1(i) += multiplyi += 1}(x._1, x._2 + 1)},(x, y) => { // 这里是对所有分区的结果进行聚合blas.daxpy(n, 1.0, y._1, 1, x._1, 1)(x._1, x._2 + y._2)})blas.dscal(n, 1.0 / count, densities, 1)densities}
}

normPdf是计算正态分布概率密度值的一个静态类

private object KernelDensity {/** Evaluates the PDF of a normal distribution. */def normPdf(mean: Double,standardDeviation: Double,logStandardDeviationPlusHalfLog2Pi: Double,x: Double): Double = {val x0 = x - meanval x1 = x0 / standardDeviationval logDensity = -0.5 * x1 * x1 - logStandardDeviationPlusHalfLog2Pimath.exp(logDensity)}
}

完整代码

完整的代码比较长,我已经上传到GitHub,大家可以去仔细阅读。

欢迎关注同名公众号:“我就算饿死也不做程序员”。
交个朋友,一起交流,一起学习,一起进步。
在这里插入图片描述

这篇关于核密度估计原理及sparkpython实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/321928

相关文章

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库

linux下shell脚本启动jar包实现过程

《linux下shell脚本启动jar包实现过程》确保APP_NAME和LOG_FILE位于目录内,首次启动前需手动创建log文件夹,否则报错,此为个人经验,供参考,欢迎支持脚本之家... 目录linux下shell脚本启动jar包样例1样例2总结linux下shell脚本启动jar包样例1#!/bin

go动态限制并发数量的实现示例

《go动态限制并发数量的实现示例》本文主要介绍了Go并发控制方法,通过带缓冲通道和第三方库实现并发数量限制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录带有缓冲大小的通道使用第三方库其他控制并发的方法因为go从语言层面支持并发,所以面试百分百会问到