【OpenCV 例程 300篇】236. 特征提取之主成分分析(OpenCV)

2023-11-05 08:20

本文主要是介绍【OpenCV 例程 300篇】236. 特征提取之主成分分析(OpenCV),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

『youcans 的 OpenCV 例程200篇 - 总目录』

【youcans 的 OpenCV 例程 300篇】236. 特征提取之主成分分析(OpenCV)

文章目录

  • 【youcans 的 OpenCV 例程 300篇】236. 特征提取之主成分分析(OpenCV)
    • 5.2 主成分分析的数学方法
      • 5.4 OpenCV 的主成分分析方法
      • 例程 14.17:特征描述之主成分分析 (OpenCV)

特征提取是指从原始特征中通过数学变换得到一组新的特征,以降低特征维数,消除相关性,减少无用信息。

特征提取分为线性映射方法和非线性映射方法。


5.2 主成分分析的数学方法

主成分分析(Principal Components Analysis,PCA)是一种基于统计的数据降维方法,又称主元素分析、主分量分析。主成分分析只需要特征值分解,就可以对数据进行压缩、去噪,应用非常广泛。

众多原始变量之间往往具有一定的相关关系。这意味着相关变量所反映的信息有一定程度的重叠,因此可以用较少的综合指标聚合、反映众多原始变量所包含的全部信息或主要信息。主成分分析方法研究特征变量之间的相关性、相似性,将一组相关性高的高维变量转换为一组彼此独立、互不相关的低维变量,从而降低数据的维数。

主成分分析方法的思想是,将高维特征(p维)映射到低维空间(k维)上,新的低维特征是在原有的高维特征基础上通过线性组合而重构的,并具有相互正交的特性,称为主成分特性。

通过正交变换构造彼此正交的新的特征向量,这些特征向量组成了新的特征空间。将特征向量按特征值排序后,样本数据集中所包含的全部方差,大部分就包含在前几个特征向量中,其后的特征向量所含的方差很小。因此,可以只保留前 k个特征向量,而忽略其它的特征向量,实现对数据特征的降维处理。

主成分分析的基本步骤是:对原始数据归一化处理后求协方差矩阵,再对协方差矩阵求特征向量和特征值;对特征向量按特征值大小排序后,依次选取特征向量,直到选择的特征向量的方差占比满足要求为止。

主成分分析方法得到的主成分变量具有几个特点:(1)每个主成分变量都是原始变量的线性组合;(2)主成分的数目大大少于原始变量的数目;(3)主成分保留了原始变量的绝大多数信息;(4)各主成分变量之间彼此相互独立。

算法的基本流程如下:

(1)归一化处理,数据减去平均值;
(2)通过特征值分解,计算协方差矩阵;
(3)计算协方差矩阵的特征值和特征向量;
(4)将特征值从大到小排序;
(5)依次选取特征值最大的 k个特征向量作为主成分,直到其累计方差贡献率达到要求;
(6)将原始数据映射到选取的主成分空间,得到降维后的数据。

在图像处理中,把每幅二维图像拉伸为一维向量,即展平为一维数组。一组 m 幅图像就构造为一个 m 维向量,使用 Karhunen-Loève transform(KLT) 变换得到变换矩阵,选取特征值最大的 k个特征向量作为主成分,从而实现特征降维。

图像压缩过程是把一组原始图像变换成低维向量的过程,图像重建就是由低维向量变换重建图像组的过程。使用主成分分析进行图像压缩和重建会有少量信息损失,但可以把损失控制到很小。


5.4 OpenCV 的主成分分析方法

OpenCV 中提供了主成分分析(Principal Components Analysis,PCA)方法的实现,即 cv::PCA 类。类的声明在 include/opencv2/core.hpp 文件中,类的实现在 modules/core/src/pca.cpp 文件中。

  • 成员函数:
    • PCA::PCA:默认构造并初始化一个空的 PCA 结构
    • PCA::backproject:将数据从 PCA 空间投影回原始空间,重建原始数据
    • PCA::operator():对提供的数据执行主成分分析操作
    • PCA::project:将输入数据投影到 PCA 特征空间;
    • PCA::read:从指定文件读入特征值、特征向量和均值;
    • PCA::write:向指定文件写入特征值、特征向量和均值;
  • 属性:
    • PCA::eigenvalues:协方差矩阵的特征值
    • PCA::eigenvectors:协方差矩阵的特征向量
    • PCA::mean:均值,投影前减去均值,投影后加上均值

PCA 类使用 Karhunen-Loeve 变换,由协方差矩阵的特征向量计算得到一组向量的正交基。

在 Python 语言中,OpenCV 提供了 PCA 类的接口函数 cv.PCACompute()cv.PCAProject()cv.PCABackProject()

函数说明:

cv.PCACompute(data, mean[, eigenvectors=None, maxComponents=0]) → mean, eigenvectors
cv.PCACompute(data, mean, retainedVariance[, eigenvectors=None]) → mean, eigenvectors
cv.PCACompute2(data, mean[, eigenvectors=None, eigenvalues=None, maxComponents=0]) → mean, eigenvectors, eigenvalues
cv.PCACompute2(data, mean, retainedVariance[, eigenvectors=None, eigenvalues=None]) → mean, eigenvectors, eigenvaluescv.PCAProject(data, mean, eigenvectors[, result=None]) → result
cv.PCABackProject(data, mean, eigenvectors[, result=None]) → result

函数 cv.PCACompute 是 PCA::operator 的接口,用于对提供的数据执行主成分分析操作,返回均值、特征向量和特征值。

函数 **cv.PCAProject ** 是 PCA::project 的接口,用于将输入数据按选择的特征向量投影到 PCA 特征空间。

函数 cv.PCABackProject 是 PCA::backproject 的接口,用于将输入数据按选择的特征向量投影从 PCA 空间投影回原始空间,重建原始数据。

参数说明:

  • data:输入数据矩阵,对于 cv.PCACompute 和 PCAProject 是 m×P 原始数据矩阵,对于 PCABackProject 是 m×K 降维数据矩阵 ( K ≤ P ) (K \le P) (KP)

  • mean:均值,形状为 (1,P),如果该参数的输入为空,则通过输入数据计算均值

  • maxComponents:保留主成分的个数,默认为保留全部主成份

  • retainedVariance:保留的累计方差的百分比,据此确定保留主成分的个数(至少保留 2个主成分)

  • eigenvectors:特征向量,全部特征向量的形状为 (P,P),前 K 个特征向量的形状为 (K,P)

  • eigenvalues:特征值,全部特征向量的形状为 (P,1),前 K 个特征向量的形状为 (K,1)

注意事项:

注意事项:

  1. 输入参数中的 mean 如果为空,其格式为 np.empty((0)) 或 np.array([])。
  2. OpenCV-Python-PCA 是 C 语言版本 PCA 类的接口,有些变量/参数的格式有些不方便。网络上关于 OpenCV-Python-PCA 的很多博文(可能)也有问题(错误),请读者务必注意。

例程 14.17:特征描述之主成分分析 (OpenCV)

本例程的图像来自 R.C.Gonzalez 《数字图像处理(第四版)》P622 例11.16。本例的目的是说明如何使用主分量作为图像特征。

    # 14.17 特征描述之主成分分析 (OpenCV)# 读取光谱图像组img = cv2.imread("../images/Fig1138a.tif", flags=0)height, width = img.shape[:2]  # (564, 564)nBands = 6  # 光谱波段种类snBands = ['a','b','c','d','e','f']  # Fig1138a~fimgMulti = np.zeros((height, width, nBands))  # (564, 564, 6)Xmat = np.zeros((img.size, nBands))  # (318096, 6)print(imgMulti.shape, Xmat.shape)# 显示光谱图像组# fig1 = plt.figure(figsize=(9, 6))  # 原始图像,6 个不同波段# fig1.suptitle("Spectral image of multi bands by NASA")for i in range(nBands):path = "../images/Fig1138{}.tif".format(snBands[i])imgMulti[:,:,i] = cv2.imread(path, flags=0)  # 灰度图像#     ax1 = fig1.add_subplot(2,3,i+1)#     ax1.set_xticks([]), ax1.set_yticks([])#     ax1.imshow(imgMulti[:,:,i], 'gray')  # 绘制光谱图像 snBands[i]# plt.tight_layout()# 主成分分析 (principal component analysis)m, p = Xmat.shape  # m:训练集样本数量,p:特征维度数Xmat = np.reshape(imgMulti, (-1, nBands))  # (564,564,6) -> (318096,6)mean, eigenvectors, eigenvalues = cv2.PCACompute2(Xmat, np.empty((0)), retainedVariance=0.98)  # retainedVariance=0.95# mean, eigenvectors, eigenvalues = cv2.PCACompute2(Xmat, np.empty((0)), maxComponents=3)  maxComponents=3print(mean.shape, eigenvectors.shape, eigenvalues.shape)  # (1, 6) (3, 6) (3, 1)eigenvalues = np.squeeze(eigenvalues)  # 删除维度为1的数组维度,(3,1)->(3,)# 保留的主成分数量K = eigenvectors.shape[0]  # 主成分方差贡献率 95% 时的特征维数 K=3print("number of samples: m=", m)  # 样本集的样本数量 m=318096print("number of features: p=", p)  # 样本集的特征维数 p=6print("number of PCA features: k=", K)  # 降维后的特征维数,主成分个数 k=3print("mean:", mean.round(4))  # 均值print("topK eigenvalues:\n", eigenvalues.round(4))  # 特征值,从大到小print("topK eigenvectors:\n", eigenvectors.round(4))  # (3, 6)# 压缩图像特征,将输入数据按主成分特征向量投影到 PCA 特征空间mbMatPCA = cv2.PCAProject(Xmat, mean, eigenvectors)  # (318096, 6)->(318096, K=3)# 显示主成分变换图像fig2 = plt.figure(figsize=(9, 6))  # 主元素图像fig2.suptitle("Principal component images")for i in range(K):pca = mbMatPCA[:, i].reshape(-1, img.shape[1])  # 主元素图像 (564, 564)imgPCA = cv2.normalize(pca, (height, width), 0, 255,  cv2.NORM_MINMAX)ax2 = fig2.add_subplot(2,3,i+1)ax2.set_xticks([]), ax2.set_yticks([])ax2.imshow(imgPCA, 'gray')  # 绘制主成分图像plt.tight_layout()# # 由主成分分析重建图像reconMat = cv2.PCABackProject(mbMatPCA, mean, eigenvectors)  # (318096, K=3)->(318096, 6)fig3 = plt.figure(figsize=(9, 6))  # 重建图像,6 个不同波段fig3.suptitle("Rebuild images of multi bands by OpenCV")rebuild = np.zeros((height, width, nBands))  # (564, 564, 6)for i in range(nBands):rebuild = reconMat[:, i].reshape(-1, img.shape[1])   # 主元素图像 (564, 564)# rebuild = np.uint8(cv2.normalize(rebuild, (height, width), 0, 255,  cv2.NORM_MINMAX))ax3 = fig3.add_subplot(2,3,i+1)ax3.set_xticks([]), ax3.set_yticks([])ax3.imshow(rebuild, 'gray')  # 绘制光谱图像 snBands[i]plt.tight_layout()plt.show()

运行结果:

(564, 564, 6) (318096, 6)
(1, 6) (3, 6) (3, 1)
number of samples: m= 318096
number of features: p= 6
number of PCA features: k= 3
mean: [[ 61.9724 67.5084 62.1467 146.1866 134.4214 111.4343]]
topK eigenvalues:
[10344.2723 2965.8884 1400.6306]
topK eigenvectors:
[[ 0.489 0.4777 0.4899 -0.1375 0.2188 0.4753]
[-0.0124 0.0394 -0.022 0.7986 0.5981 -0.0486]
[-0.2301 -0.3012 -0.315 0.0431 0.0165 0.8689]]


在这里插入图片描述

在这里插入图片描述


【本节完】

版权声明:
本例程的图像来自 R.C.Gonzalez 《数字图像处理(第四版)》P622 例11.16。
youcans@xupt 原创作品,转载必须标注原文链接:(https://blog.csdn.net/youcans/article/details/125782192)
Copyright 2022 youcans, XUPT
Crated:2022-7-15

234. 特征提取之主成分分析(PCA)
235. 特征提取之主成分分析(sklearn)
236. 特征提取之主成分分析(OpenCV)

这篇关于【OpenCV 例程 300篇】236. 特征提取之主成分分析(OpenCV)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/348564

相关文章

基于Go语言实现Base62编码的三种方式以及对比分析

《基于Go语言实现Base62编码的三种方式以及对比分析》Base62编码是一种在字符编码中使用62个字符的编码方式,在计算机科学中,,Go语言是一种静态类型、编译型语言,它由Google开发并开源,... 目录一、标准库现状与解决方案1. 标准库对比表2. 解决方案完整实现代码(含边界处理)二、关键实现细

PostgreSQL 序列(Sequence) 与 Oracle 序列对比差异分析

《PostgreSQL序列(Sequence)与Oracle序列对比差异分析》PostgreSQL和Oracle都提供了序列(Sequence)功能,但在实现细节和使用方式上存在一些重要差异,... 目录PostgreSQL 序列(Sequence) 与 oracle 序列对比一 基本语法对比1.1 创建序

python+OpenCV反投影图像的实现示例详解

《python+OpenCV反投影图像的实现示例详解》:本文主要介绍python+OpenCV反投影图像的实现示例详解,本文通过实例代码图文并茂的形式给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一、前言二、什么是反投影图像三、反投影图像的概念四、反向投影的工作原理一、利用反向投影backproj

慢sql提前分析预警和动态sql替换-Mybatis-SQL

《慢sql提前分析预警和动态sql替换-Mybatis-SQL》为防止慢SQL问题而开发的MyBatis组件,该组件能够在开发、测试阶段自动分析SQL语句,并在出现慢SQL问题时通过Ducc配置实现动... 目录背景解决思路开源方案调研设计方案详细设计使用方法1、引入依赖jar包2、配置组件XML3、核心配

Java NoClassDefFoundError运行时错误分析解决

《JavaNoClassDefFoundError运行时错误分析解决》在Java开发中,NoClassDefFoundError是一种常见的运行时错误,它通常表明Java虚拟机在尝试加载一个类时未能... 目录前言一、问题分析二、报错原因三、解决思路检查类路径配置检查依赖库检查类文件调试类加载器问题四、常见

Python中的Walrus运算符分析示例详解

《Python中的Walrus运算符分析示例详解》Python中的Walrus运算符(:=)是Python3.8引入的一个新特性,允许在表达式中同时赋值和返回值,它的核心作用是减少重复计算,提升代码简... 目录1. 在循环中避免重复计算2. 在条件判断中同时赋值变量3. 在列表推导式或字典推导式中简化逻辑

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

Java程序进程起来了但是不打印日志的原因分析

《Java程序进程起来了但是不打印日志的原因分析》:本文主要介绍Java程序进程起来了但是不打印日志的原因分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java程序进程起来了但是不打印日志的原因1、日志配置问题2、日志文件权限问题3、日志文件路径问题4、程序

Java字符串操作技巧之语法、示例与应用场景分析

《Java字符串操作技巧之语法、示例与应用场景分析》在Java算法题和日常开发中,字符串处理是必备的核心技能,本文全面梳理Java中字符串的常用操作语法,结合代码示例、应用场景和避坑指南,可快速掌握字... 目录引言1. 基础操作1.1 创建字符串1.2 获取长度1.3 访问字符2. 字符串处理2.1 子字

在PyCharm中安装PyTorch、torchvision和OpenCV详解

《在PyCharm中安装PyTorch、torchvision和OpenCV详解》:本文主要介绍在PyCharm中安装PyTorch、torchvision和OpenCV方式,具有很好的参考价值,... 目录PyCharm安装PyTorch、torchvision和OpenCV安装python安装PyTor