数据预处理之白化-Whitening

2024-06-10 05:58

本文主要是介绍数据预处理之白化-Whitening,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

理论知识

随机向量的“零均值化”和“空间解相关”是最常用的两个预处理过程,其中“零均值化”比较简单,而“空间解相关”涉及一些矩阵的知识。
    设有均值为零的随机信号向量 x ,其自相关矩阵为

R_x=E[xx^T]\neq I

很明显, R_x 是对称矩阵,且是非负定的(所有特征值都大于或等于0)。
    现在,寻找一个线性变换 B 对 x 进行变换,即 y=Bx ,使得

R_y=BE[xx^T]B^T=I

上式的含义是:y的各分量是不相关的,即 E[y_i y_j]=\delta_{ij} 。通常将这个过程称为“空间解相关”、“空间白化”或“球化”。 B 称为空间解相关矩阵(空间白化矩阵、球化矩阵)。
    由 R_x 的性质可知,其存在特征值分解:

R_x = Q\Sigma Q^T

Q 是正交矩阵, \Sigma 是对角矩阵,其对角元素是 R_x 特征值。
    令
                                                              
                                                                                  B=Σ1/2QT
 则有                                                           R_y = (\Sigma^{-1/2} Q^T)Q \Sigma Q^T (\Sigma^{-1/2} Q^T)^T = I
因此,通过矩阵 B 线性变换后, y 的各个分量变得不相关了。
    对于 R_x 来说,特征值分解和奇异值分解是等价的,而奇异值分解的数值算法比特征值分解的数值算法具有更好的稳定性,因此一般都用奇异值分解来构造空间解相关矩阵 B 。
    应该注意到,“空间解相关”不能保证各分量信号之间的“独立性”,但它能够简化盲分离算法或改善分离算法的性能。
    最为熟知的例子是白噪声。元素 x_i 可以是一个时间序列在相继时间点 i=1,2,... 的值,且在噪声序列中没有时间上得相关性。术语“白”来自于白噪声的能谱在所有频率上是一个常数这一事实,就像含有各种颜色的白光谱一样。白化的本质就是去相关加缩放。
   由上式得到的 解相关矩阵 B 肯定不是唯一的白化矩阵。容易看到,任何矩阵 UB ( U 为正交矩阵)也是白化矩阵。 这是因为对  y=UBx  ,下式成立:

E[yy^T] = UBE[xx^T]B^TU^T = UIU^T = I

    一个重要的例子是矩阵 Q \Sigma^{-1/2} Q^T 。这也是一个白化矩阵,因为它是用正交矩阵 Q 左乘式矩阵B 得到的。这个矩阵称为 C_x 的逆均方根,并用 C_x^{-1/2} 表示,因为它来自于均方根概念向矩阵的标准推广。
理论知识参考:《盲信号处理》,《Independent Component Analysis》

Matlab代码实现

  C = cov(patches);M = mean(patches);[V,D] = eig(C);P = V * diag(sqrt(1./(diag(D) + 0.1))) * V';patches = bsxfun(@minus, patches, M) * P;
代码中patches表示矩阵或图像(灰度),代码中用到的函数均为matlab built-in function.











参考:  数据白化预处理



这篇关于数据预处理之白化-Whitening的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1047371

相关文章

8种快速易用的Python Matplotlib数据可视化方法汇总(附源码)

《8种快速易用的PythonMatplotlib数据可视化方法汇总(附源码)》你是否曾经面对一堆复杂的数据,却不知道如何让它们变得直观易懂?别慌,Python的Matplotlib库是你数据可视化的... 目录引言1. 折线图(Line Plot)——趋势分析2. 柱状图(Bar Chart)——对比分析3

Spring Boot 整合 Redis 实现数据缓存案例详解

《SpringBoot整合Redis实现数据缓存案例详解》Springboot缓存,默认使用的是ConcurrentMap的方式来实现的,然而我们在项目中并不会这么使用,本文介绍SpringB... 目录1.添加 Maven 依赖2.配置Redis属性3.创建 redisCacheManager4.使用Sp

Python Pandas高效处理Excel数据完整指南

《PythonPandas高效处理Excel数据完整指南》在数据驱动的时代,Excel仍是大量企业存储核心数据的工具,Python的Pandas库凭借其向量化计算、内存优化和丰富的数据处理接口,成为... 目录一、环境搭建与数据读取1.1 基础环境配置1.2 数据高效载入技巧二、数据清洗核心战术2.1 缺失

Python处理超大规模数据的4大方法详解

《Python处理超大规模数据的4大方法详解》在数据的奇妙世界里,数据量就像滚雪球一样,越变越大,从最初的GB级别的小数据堆,逐渐演变成TB级别的数据大山,所以本文我们就来看看Python处理... 目录1. Mars:数据处理界的 “变形金刚”2. Dask:分布式计算的 “指挥家”3. CuPy:GPU

使用Vue-ECharts实现数据可视化图表功能

《使用Vue-ECharts实现数据可视化图表功能》在前端开发中,经常会遇到需要展示数据可视化的需求,比如柱状图、折线图、饼图等,这类需求不仅要求我们准确地将数据呈现出来,还需要兼顾美观与交互体验,所... 目录前言为什么选择 vue-ECharts?1. 基于 ECharts,功能强大2. 更符合 Vue

Java如何根据word模板导出数据

《Java如何根据word模板导出数据》这篇文章主要为大家详细介绍了Java如何实现根据word模板导出数据,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... pom.XML文件导入依赖 <dependency> <groupId>cn.afterturn</groupId>

Python实现获取带合并单元格的表格数据

《Python实现获取带合并单元格的表格数据》由于在日常运维中经常出现一些合并单元格的表格,如果要获取数据比较麻烦,所以本文我们就来聊聊如何使用Python实现获取带合并单元格的表格数据吧... 由于在日常运维中经常出现一些合并单元格的表格,如果要获取数据比较麻烦,现将将封装成类,并通过调用list_exc

Mysql数据库中数据的操作CRUD详解

《Mysql数据库中数据的操作CRUD详解》:本文主要介绍Mysql数据库中数据的操作(CRUD),详细描述对Mysql数据库中数据的操作(CRUD),包括插入、修改、删除数据,还有查询数据,包括... 目录一、插入数据(insert)1.插入数据的语法2.注意事项二、修改数据(update)1.语法2.有

SpringBoot实现接口数据加解密的三种实战方案

《SpringBoot实现接口数据加解密的三种实战方案》在金融支付、用户隐私信息传输等场景中,接口数据若以明文传输,极易被中间人攻击窃取,SpringBoot提供了多种优雅的加解密实现方案,本文将从原... 目录一、为什么需要接口数据加解密?二、核心加解密算法选择1. 对称加密(AES)2. 非对称加密(R

详解如何在SpringBoot控制器中处理用户数据

《详解如何在SpringBoot控制器中处理用户数据》在SpringBoot应用开发中,控制器(Controller)扮演着至关重要的角色,它负责接收用户请求、处理数据并返回响应,本文将深入浅出地讲解... 目录一、获取请求参数1.1 获取查询参数1.2 获取路径参数二、处理表单提交2.1 处理表单数据三、