基于相关系数法的近红外光谱波长选择用于玉米数据集的含量检测

本文主要是介绍基于相关系数法的近红外光谱波长选择用于玉米数据集的含量检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 前言

        在近红外光谱数据分析建模过程中,特征选择是其中关键的一步。特征选择的原因是全部样本信息(全波长)中存在冗余信息,使得有些有效信息被抵消同时也无法突出有用的信息,这样建立的分析模型准确度和可靠性不高且计算量较大,特征选择就是最大限度的筛选出光谱数据中的有效信息,使得筛选出来的这些信息可以代表全部的样本信息,这样筛选出来的就是特征波长。本文主要介绍采用相关系数法筛选玉米数据集的特征波长,并与全波长建模结果进行对比。

相关系数法

      皮尔逊相关系数是描述 个定距变量间联系紧密程度, 衡量变量 之间的线性相关关系的 参数, 其值介于 -1 之间 一般用 表示 计 算公式见式 ( )。见参考文献【1】

数据来源

       对网上公开的玉米数据集进行分析,下载网址可参见博客玉米数据集

       数据集中包含有 3台不同的光谱仪测量得到的近红外光谱,每台仪器测量的光谱数据波长范围为1100~2498nm,波长间隔为 2nm,共 700 个波长点。

图1 玉米数据光谱 

基于PLS的的玉米数据集含量检测

clc
clearload('corn_m51.mat')
X;                      %光谱
y;                      %含量% figure
% plot(1101:2:2500, X(:, 1:length(X)));
% xlabel('Wavelength/nm','FontName','Times New Roman','FontSize',8);
% ylabel('Absorbance','FontName','Times New Roman','FontSize',8);
% set(gca,'FontName','Times New Roman','FontSize',8);% X =  nirSNV(X);ratio = 0.7;            % 训练集占70%  
[mx, nx] = size(X);
mtrain = ceil(mx * ratio);
mtest = mx - mtrain;
[Xtrain, Xtest, Ytrain, Ytest] = ks(X,y,ceil(mx*ratio));[Rc,RMSEC,beta,yc] = fitaaa(Xtrain, Ytrain);
[Rp,RMSEP,yp] = fitbbb(Xtest,Ytest,beta);

以上,Rc,Rp分别为校正相关系数和预测相关系数;RMSEC,RMSEP分别为校正均方根误差和校正均方根误差。

结果如下

基于相关系数法的近红外光谱含量检测模型

        运用相关系数法筛选光谱值和含量值之间相关性较大的样本,建立PLS含量检测模型。

代码如下:

load('corn_m51.mat')
X;                      %光谱
y;                      %含量% figure
% plot(1101:2:2500, X(:, 1:length(X)));
% xlabel('Wavelength/nm','FontName','Times New Roman','FontSize',8);
% ylabel('Absorbance','FontName','Times New Roman','FontSize',8);
% set(gca,'FontName','Times New Roman','FontSize',8);% X =  nirSNV(X);ratio = 0.7;            % 训练集占70%  
[mx, nx] = size(X);
mtrain = ceil(mx * ratio);
mtest = mx - mtrain;
[Xtrain, Xtest, Ytrain, Ytest] = ks(X,y,ceil(mx*ratio));%% 采用相关系数选择特征波长再建模
rt = CA(Xtrain, Ytrain);
max_rt = max(rt);
min_rt = min(rt);[Rc_,RMSEC_,Rp_,RMSEP_,selectedBands] = CA_get_i(Xtrain, Ytrain, Xtest, Ytest,min_rt, max_rt, 0.001);

以上,Rc_,Rp_分别为校正相关系数和预测相关系数;RMSEC_,RMSEP_分别为校正均方根误差和校正均方根误差。

结果如下:

 选用PLS建模和先进行相关系数法波长选择再PLS建模的结果对比

 

总结

        本文选用的模型评价指标为校正相关系数(Rc,Rc_)、预测相关性数(Rp、Rp_)、校正均方根误差(RMSCE,RMSEC_)和预测均方根误差(RMSEP,RMSEP_)。相关系数用于反映变量直接相关系数密切程度的统计指标。RMSEP用于衡量预测值与真实值之间的偏差。RMSEP值越小,相关系数越大,则模型的预测能力越好。

       相比于直接选用全波长进行建模,相关系数法选用波长后建模的Rp从0.9952上升到0.9969,RMSEP从0.0308下降到0.0246,选择的变量从全波长的700减少到587。说明相关系数法可有效选择光谱与含量之间相关性更好的样本,减少冗余变量,提高模型的精度。

完整代码可从GitHubhttps://github.com/cainnyk/CSDV_corPLS下载​​​​​​​

参考文献【1】倪超,李振业,张雄,赵岭,朱婷婷,蒋雪松.基于短波近红外高光谱和深度学习的籽棉地膜分选算法[J].农业机械学报,2019,50(12):170-179.

这篇关于基于相关系数法的近红外光谱波长选择用于玉米数据集的含量检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/291160

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

C#自动化实现检测并删除PDF文件中的空白页面

《C#自动化实现检测并删除PDF文件中的空白页面》PDF文档在日常工作和生活中扮演着重要的角色,本文将深入探讨如何使用C#编程语言,结合强大的PDF处理库,自动化地检测并删除PDF文件中的空白页面,感... 目录理解PDF空白页的定义与挑战引入Spire.PDF for .NET库核心实现:检测并删除空白页

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很