精心整理出来的几种缺失值处理方法

2024-06-01 16:48

本文主要是介绍精心整理出来的几种缺失值处理方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

缺失值补充 造成属性值缺失的原因有很多,比如信息暂时无法获取,信息被遗漏(有机械原因也有人为原因),有些对象的某个或者某些属性是不可用的,有些信息被认为是不重要的,获取这些信息的代价太大,系统实时性能要求较高;此外对缺失值的处理一定要具体问题具体分析,因为缺失值并不意味着数据缺失,缺失本身也是包含信息的,所以需要根据不同的场景下的缺失值进行合理填充。 目前缺失值的类型,含有缺失值的变量被称为不完全变量,而不含有缺失值的变量被称为完全变量,从缺失的分布来说又分为完 全随机缺失,随机缺失和完全非随机缺失:

  • 完全随机缺失:指的是数据的缺失是完全随机的;
  • 随机缺失:指的是数据的缺失不是完全随机的,和完全变量关;
  • 完全不随机缺失:指的是数据的缺失与不完全变量自身的取值相关; 缺失值会使得系统丢失了大量的有用信息,系统所表现出来的不确定性更加显著,系统中蕴含的确定性成分更难把握,包含空值的不完全变量会使得挖掘过程陷入混乱。

下面来先讲一下缺失值的处理:

  • 1.1 删除法,主要有简单删除法
  • 1.1.1 简单删除法适合于缺失值样本比较少的情况下,如果有过多的缺失值,则不适合使用该方法,因为该方法是用减少历史数据的方法来换取数据的完备性,这样会造成资源的极大浪费,因为其丢弃了大量隐藏在这些对象上的信息,在样本数量本来就很少的数据集中删除少量对象将严重影响数据集的客观性和结果的正确性;
  • 1.2 数据补齐,主要有人工填写、特殊值填充、平均值填充、热卡填充、K-means填充,使用所有可能的值填充、组合完整化方法,回归法,期望值最大化方法,多重填补以及C4.5方法;
  • 1.2.1 人工填写,用户自己对数据最为了解,因此这个方法产生的偏差是最小的,但是如果有大规模的缺失值时,这个方法是非常耗时耗力的;
  • 1.2.2 特殊值填充,将空值作为一种特殊值来处理,但是有可能造成严重的数据偏离,一般不推荐使用;
  • 1.2.3 平均值填充,如果是数值型特征,则是使用平均值来填充,如果是类别型特征,则是使用众数来填充,另一种相似的方法是条件平均值填充,这个并不是直接使用所有对象来计算平均值或者众数,而是使用与该样本具有相同决策属性的对象中去求解平均值或者众数;
  • 1.2.4 热卡填充,或者说就叫做近补齐,对于一个包含空值的对象,热卡填充法在完整数据集中找到一个与它最相似的对象,用这个值来填充;
  • 1.2.5 k-means利用欧式距离或者相关性分析来确定距离最近的K个样本,将这K个值的加权平均值来估计该样本的缺失数据;
  • 1.2.6 组合完整化方法,用空缺属性值的所有可能的属性取值来试,并从最终属性的约间结果中选择一个最好的属性值;
  • 1.2.7 使用所有可能的值填充,使用所有可能的属性值来填充,能够得到很好的效果;
  • 1.2.8 回归,基于完整的数据集,建立回归方程。对于包含空值的对象,将已知数据集带入回归方程来估计预测值,并以此预测值来进行填充,但是当变量不是线性相关时则会导致偏差的估计;
  • 1.2.9 期望值最大化方法,在不完全数据情况下计算极大似然估计和后验分布的迭代算法;
  • 1.2.10 多重填补
  • 1.2.11 C4.5
  • 1.3 不处理,直接在包含空值的数据集上进行处理比如贝叶斯网络和人工神经网络

这篇关于精心整理出来的几种缺失值处理方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1021566

相关文章

Python中提取文件名扩展名的多种方法实现

《Python中提取文件名扩展名的多种方法实现》在Python编程中,经常会遇到需要从文件名中提取扩展名的场景,Python提供了多种方法来实现这一功能,不同方法适用于不同的场景和需求,包括os.pa... 目录技术背景实现步骤方法一:使用os.path.splitext方法二:使用pathlib模块方法三

Python打印对象所有属性和值的方法小结

《Python打印对象所有属性和值的方法小结》在Python开发过程中,调试代码时经常需要查看对象的当前状态,也就是对象的所有属性和对应的值,然而,Python并没有像PHP的print_r那样直接提... 目录python中打印对象所有属性和值的方法实现步骤1. 使用vars()和pprint()2. 使

CSS实现元素撑满剩余空间的五种方法

《CSS实现元素撑满剩余空间的五种方法》在日常开发中,我们经常需要让某个元素占据容器的剩余空间,本文将介绍5种不同的方法来实现这个需求,并分析各种方法的优缺点,感兴趣的朋友一起看看吧... css实现元素撑满剩余空间的5种方法 在日常开发中,我们经常需要让某个元素占据容器的剩余空间。这是一个常见的布局需求

电脑提示xlstat4.dll丢失怎么修复? xlstat4.dll文件丢失处理办法

《电脑提示xlstat4.dll丢失怎么修复?xlstat4.dll文件丢失处理办法》长时间使用电脑,大家多少都会遇到类似dll文件丢失的情况,不过,解决这一问题其实并不复杂,下面我们就来看看xls... 在Windows操作系统中,xlstat4.dll是一个重要的动态链接库文件,通常用于支持各种应用程序

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

SQL Server数据库死锁处理超详细攻略

《SQLServer数据库死锁处理超详细攻略》SQLServer作为主流数据库管理系统,在高并发场景下可能面临死锁问题,影响系统性能和稳定性,这篇文章主要给大家介绍了关于SQLServer数据库死... 目录一、引言二、查询 Sqlserver 中造成死锁的 SPID三、用内置函数查询执行信息1. sp_w

Java对异常的认识与异常的处理小结

《Java对异常的认识与异常的处理小结》Java程序在运行时可能出现的错误或非正常情况称为异常,下面给大家介绍Java对异常的认识与异常的处理,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参... 目录一、认识异常与异常类型。二、异常的处理三、总结 一、认识异常与异常类型。(1)简单定义-什么是

python判断文件是否存在常用的几种方式

《python判断文件是否存在常用的几种方式》在Python中我们在读写文件之前,首先要做的事情就是判断文件是否存在,否则很容易发生错误的情况,:本文主要介绍python判断文件是否存在常用的几种... 目录1. 使用 os.path.exists()2. 使用 os.path.isfile()3. 使用

Maven 配置中的 <mirror>绕过 HTTP 阻断机制的方法

《Maven配置中的<mirror>绕过HTTP阻断机制的方法》:本文主要介绍Maven配置中的<mirror>绕过HTTP阻断机制的方法,本文给大家分享问题原因及解决方案,感兴趣的朋友一... 目录一、问题场景:升级 Maven 后构建失败二、解决方案:通过 <mirror> 配置覆盖默认行为1. 配置示

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.