精心整理出来的几种缺失值处理方法

2024-06-01 16:48

本文主要是介绍精心整理出来的几种缺失值处理方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

缺失值补充 造成属性值缺失的原因有很多,比如信息暂时无法获取,信息被遗漏(有机械原因也有人为原因),有些对象的某个或者某些属性是不可用的,有些信息被认为是不重要的,获取这些信息的代价太大,系统实时性能要求较高;此外对缺失值的处理一定要具体问题具体分析,因为缺失值并不意味着数据缺失,缺失本身也是包含信息的,所以需要根据不同的场景下的缺失值进行合理填充。 目前缺失值的类型,含有缺失值的变量被称为不完全变量,而不含有缺失值的变量被称为完全变量,从缺失的分布来说又分为完 全随机缺失,随机缺失和完全非随机缺失:

  • 完全随机缺失:指的是数据的缺失是完全随机的;
  • 随机缺失:指的是数据的缺失不是完全随机的,和完全变量关;
  • 完全不随机缺失:指的是数据的缺失与不完全变量自身的取值相关; 缺失值会使得系统丢失了大量的有用信息,系统所表现出来的不确定性更加显著,系统中蕴含的确定性成分更难把握,包含空值的不完全变量会使得挖掘过程陷入混乱。

下面来先讲一下缺失值的处理:

  • 1.1 删除法,主要有简单删除法
  • 1.1.1 简单删除法适合于缺失值样本比较少的情况下,如果有过多的缺失值,则不适合使用该方法,因为该方法是用减少历史数据的方法来换取数据的完备性,这样会造成资源的极大浪费,因为其丢弃了大量隐藏在这些对象上的信息,在样本数量本来就很少的数据集中删除少量对象将严重影响数据集的客观性和结果的正确性;
  • 1.2 数据补齐,主要有人工填写、特殊值填充、平均值填充、热卡填充、K-means填充,使用所有可能的值填充、组合完整化方法,回归法,期望值最大化方法,多重填补以及C4.5方法;
  • 1.2.1 人工填写,用户自己对数据最为了解,因此这个方法产生的偏差是最小的,但是如果有大规模的缺失值时,这个方法是非常耗时耗力的;
  • 1.2.2 特殊值填充,将空值作为一种特殊值来处理,但是有可能造成严重的数据偏离,一般不推荐使用;
  • 1.2.3 平均值填充,如果是数值型特征,则是使用平均值来填充,如果是类别型特征,则是使用众数来填充,另一种相似的方法是条件平均值填充,这个并不是直接使用所有对象来计算平均值或者众数,而是使用与该样本具有相同决策属性的对象中去求解平均值或者众数;
  • 1.2.4 热卡填充,或者说就叫做近补齐,对于一个包含空值的对象,热卡填充法在完整数据集中找到一个与它最相似的对象,用这个值来填充;
  • 1.2.5 k-means利用欧式距离或者相关性分析来确定距离最近的K个样本,将这K个值的加权平均值来估计该样本的缺失数据;
  • 1.2.6 组合完整化方法,用空缺属性值的所有可能的属性取值来试,并从最终属性的约间结果中选择一个最好的属性值;
  • 1.2.7 使用所有可能的值填充,使用所有可能的属性值来填充,能够得到很好的效果;
  • 1.2.8 回归,基于完整的数据集,建立回归方程。对于包含空值的对象,将已知数据集带入回归方程来估计预测值,并以此预测值来进行填充,但是当变量不是线性相关时则会导致偏差的估计;
  • 1.2.9 期望值最大化方法,在不完全数据情况下计算极大似然估计和后验分布的迭代算法;
  • 1.2.10 多重填补
  • 1.2.11 C4.5
  • 1.3 不处理,直接在包含空值的数据集上进行处理比如贝叶斯网络和人工神经网络

这篇关于精心整理出来的几种缺失值处理方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1021566

相关文章

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

Python进行JSON和Excel文件转换处理指南

《Python进行JSON和Excel文件转换处理指南》在数据交换与系统集成中,JSON与Excel是两种极为常见的数据格式,本文将介绍如何使用Python实现将JSON转换为格式化的Excel文件,... 目录将 jsON 导入为格式化 Excel将 Excel 导出为结构化 JSON处理嵌套 JSON:

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原

电脑提示d3dx11_43.dll缺失怎么办? DLL文件丢失的多种修复教程

《电脑提示d3dx11_43.dll缺失怎么办?DLL文件丢失的多种修复教程》在使用电脑玩游戏或运行某些图形处理软件时,有时会遇到系统提示“d3dx11_43.dll缺失”的错误,下面我们就来分享超... 在计算机使用过程中,我们可能会遇到一些错误提示,其中之一就是缺失某个dll文件。其中,d3dx11_4

Spring Boot 中的默认异常处理机制及执行流程

《SpringBoot中的默认异常处理机制及执行流程》SpringBoot内置BasicErrorController,自动处理异常并生成HTML/JSON响应,支持自定义错误路径、配置及扩展,如... 目录Spring Boot 异常处理机制详解默认错误页面功能自动异常转换机制错误属性配置选项默认错误处理

SpringBoot 异常处理/自定义格式校验的问题实例详解

《SpringBoot异常处理/自定义格式校验的问题实例详解》文章探讨SpringBoot中自定义注解校验问题,区分参数级与类级约束触发的异常类型,建议通过@RestControllerAdvice... 目录1. 问题简要描述2. 异常触发1) 参数级别约束2) 类级别约束3. 异常处理1) 字段级别约束

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分