什么是Data-dismatch problem?如何甄别及处理?

2024-01-14 02:59

本文主要是介绍什么是Data-dismatch problem?如何甄别及处理?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇文章为本人基于Andrew Ng的深度学习课程进行的总结,加上一些个人的感悟和认识。有误之处,还望海涵。

目录

        • 1 数据集划分的常规方法及常见问题
        • 2 开发新系统时可能遇到的数据困难
        • 3 什么是 data-dismatch problem?
        • 4 通过train-dev set 甄别数据不匹配错误
        • 5 如何改善数据不匹配问题?
        • 6 小结



1 数据集划分的常规方法及常见问题

数据集划分:
在进行机器学习系统开发时我们最常使用的数据集划分方式即为:
“训练集(train_set),开发集(dev_set/cross_validation_set),测试集(test_set)”。三者在模型训练中的功能各不相同,在这里不详细叙述,感兴趣的同学可以自行检索。

常见问题:

  • high bias 问题:high bias 问题主要指训练集误差与“人类水平”(或bayes optimal error)之间存在较大差距的状况。遇此类问题说明目前的机器学习系统仍然有很大的进步空间,可通过设计更复杂的模型,调节参数等进行改善。
  • high variance 问题:high variance 问题指训练集误差与开发集误差之间存在较大的差距。与此类问题可以说明可能存在过拟合现象,可以尝试通过正则化或增加数据集等方式来解决

2 开发新系统时可能遇到的数据困难

假设现在需要开发一个“车载导航语音助手”(接收用户的语音输入,输出规划路径),输入为用户语料信息。开发这样一个语言处理系统需要大量的语料数据进行支撑,但事实上我们可能很难收集到大量“车载导航”背景下的语料信息,这时如何解决?
一种可能的解决方式是:结合其他背景下的语料信息进行训练。假设目前我们手头有“家庭生活语料信息”,那么我们可以结合这些语料信息,加上目前收集到的“车载导航”背景语料信息共同进行模型训练。
面对这种情况,常规的数据集划分方式有两种:

  • 混合所有语料信息(shuffle),并按照常规Train-Dev-Test方式进行划分。
    这种方式显然是不合理的。在进行机器学习系统开发时,最关键的环节之一是明确目标(target),如果训练目标都不准确,那么即使进行了大量的训练也不会取得良好的实用效果。
    为什么说这种划分方式可能出现目标偏差呢?
    在“车载导航”系统的背景下其实这是显而易见的,如果我们混合了其他语料背景下的信息作为 dev 以及 test set 的数据,那么我们就存在偏离目标的可能。(因为通常评估一个模型的优劣是基于模型在 dev 以及 test 数据集上的表现来判断的)
  • 将“车载导航”语料背景下的数据划分为两部分,一部分作为 dev 以及 test 数据集,另一部分加入 train 数据集中。
    这样解决了前面提到的目标偏差的问题,但是很显然这样同样是存在问题的,见下小节

3 什么是 data-dismatch problem?

在上一小节中我们提出了两种数据集划分方式,针对第一种数据集划分方式我们提出了其问题,那么对于第二种数据集划分方式又存在什么问题呢?
事实上,如果仅仅只是加入了少量其他背景下的语料信息那么第二种数据集划分方式是合理的,但是假设以下状况:其他背景下的语料信息共有500,000条,而“车载导航”背景下的语料信息仅有10,000条。在这种偏差巨大的情况下,由于数据集偏差引发的问题就凸显出来了:我们可能在 train set 上表现良好,但是当迁移到 dev 或者 test 数据集上时则表现急剧下降。这就是我们所说的data-dismatch problem.


4 通过train-dev set 甄别数据不匹配错误

解决问题的前提是能够准确的发现问题,只有证明问题的存在我们才能够对症下药,不浪费宝贵的开发时间。

  • 通过 train-dev set 甄别数据不匹配错误

首先什么是train-dev set?简单而言就是将原来的 train set 作进一步的划分,分解为 train set 与 train-dev set 两部分。
数据集划分
那么 train-dev set 是如何甄别数据不匹配错误的呢?这里引用一张Anderw Ng授课PPT:
Andrew Ng
模型的训练仍然仅在 train set 上进行,而 train-dev set 则充当了常规模型训练时的 dev set 的作用,用来衡量 variance 的大小。而 train-dev set 与 dev set 的对比则成为了甄别数据不匹配问题的关键。如果两者差距较大则说明数据偏差较大需要进一步改善,否则说明该问题并不关键。


5 如何改善数据不匹配问题?

完成了问题的甄别如何改善呢?事实上,截止目前为止仍然没有较为系统的解决办法,以下为可供参考的解决方案:

  • 人工差别分析:当我们甄别到存在数据不匹配问题时则说明 train set 与 dev/test set 之间存在较大的差别。基于以上观点,我们可以观察这些数据差别究竟在哪里并为后面的工作指明方向。
  • 制造数据:基于差别分析我们可以认识到数据差异在何处。还是以之前的“车载导航”系统为例,假设经过分析我们认识当其他语料背景下的信息与车载语料背景下信息的最大差异在于车载语料背景存在很多的噪音。在这种情况下,我们可以通过信息合成的手段(synthesis)制造符合分布期望的数据集。需要注意的是,如果我们的制造方式不合理可能出现其他问题,如对特定的噪声特别敏感等等

6 小结

以上即为本篇文章的全部内容,感谢大家阅读。
求赞求收藏!!

转载请注明出处,感谢!

这篇关于什么是Data-dismatch problem?如何甄别及处理?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/603715

相关文章

解决docker目录内存不足扩容处理方案

《解决docker目录内存不足扩容处理方案》文章介绍了Docker存储目录迁移方法:因系统盘空间不足,需将Docker数据迁移到更大磁盘(如/home/docker),通过修改daemon.json配... 目录1、查看服务器所有磁盘的使用情况2、查看docker镜像和容器存储目录的空间大小3、停止dock

5 种使用Python自动化处理PDF的实用方法介绍

《5种使用Python自动化处理PDF的实用方法介绍》自动化处理PDF文件已成为减少重复工作、提升工作效率的重要手段,本文将介绍五种实用方法,从内置工具到专业库,帮助你在Python中实现PDF任务... 目录使用内置库(os、subprocess)调用外部工具使用 PyPDF2 进行基本 PDF 操作使用

分析 Java Stream 的 peek使用实践与副作用处理方案

《分析JavaStream的peek使用实践与副作用处理方案》StreamAPI的peek操作是中间操作,用于观察元素但不终止流,其副作用风险包括线程安全、顺序混乱及性能问题,合理使用场景有限... 目录一、peek 操作的本质:有状态的中间操作二、副作用的定义与风险场景1. 并行流下的线程安全问题2. 顺

Python异常处理之避免try-except滥用的3个核心原则

《Python异常处理之避免try-except滥用的3个核心原则》在Python开发中,异常处理是保证程序健壮性的关键机制,本文结合真实案例与Python核心机制,提炼出避免异常滥用的三大原则,有需... 目录一、精准打击:只捕获可预见的异常类型1.1 通用异常捕获的陷阱1.2 精准捕获的实践方案1.3

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

Python动态处理文件编码的完整指南

《Python动态处理文件编码的完整指南》在Python文件处理的高级应用中,我们经常会遇到需要动态处理文件编码的场景,本文将深入探讨Python中动态处理文件编码的技术,有需要的小伙伴可以了解下... 目录引言一、理解python的文件编码体系1.1 Python的IO层次结构1.2 编码问题的常见场景二

Python函数的基本用法、返回值特性、全局变量修改及异常处理技巧

《Python函数的基本用法、返回值特性、全局变量修改及异常处理技巧》本文将通过实际代码示例,深入讲解Python函数的基本用法、返回值特性、全局变量修改以及异常处理技巧,感兴趣的朋友跟随小编一起看看... 目录一、python函数定义与调用1.1 基本函数定义1.2 函数调用二、函数返回值详解2.1 有返

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性