什么是Data-dismatch problem?如何甄别及处理?

2024-01-14 02:59

本文主要是介绍什么是Data-dismatch problem?如何甄别及处理?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇文章为本人基于Andrew Ng的深度学习课程进行的总结,加上一些个人的感悟和认识。有误之处,还望海涵。

目录

        • 1 数据集划分的常规方法及常见问题
        • 2 开发新系统时可能遇到的数据困难
        • 3 什么是 data-dismatch problem?
        • 4 通过train-dev set 甄别数据不匹配错误
        • 5 如何改善数据不匹配问题?
        • 6 小结



1 数据集划分的常规方法及常见问题

数据集划分:
在进行机器学习系统开发时我们最常使用的数据集划分方式即为:
“训练集(train_set),开发集(dev_set/cross_validation_set),测试集(test_set)”。三者在模型训练中的功能各不相同,在这里不详细叙述,感兴趣的同学可以自行检索。

常见问题:

  • high bias 问题:high bias 问题主要指训练集误差与“人类水平”(或bayes optimal error)之间存在较大差距的状况。遇此类问题说明目前的机器学习系统仍然有很大的进步空间,可通过设计更复杂的模型,调节参数等进行改善。
  • high variance 问题:high variance 问题指训练集误差与开发集误差之间存在较大的差距。与此类问题可以说明可能存在过拟合现象,可以尝试通过正则化或增加数据集等方式来解决

2 开发新系统时可能遇到的数据困难

假设现在需要开发一个“车载导航语音助手”(接收用户的语音输入,输出规划路径),输入为用户语料信息。开发这样一个语言处理系统需要大量的语料数据进行支撑,但事实上我们可能很难收集到大量“车载导航”背景下的语料信息,这时如何解决?
一种可能的解决方式是:结合其他背景下的语料信息进行训练。假设目前我们手头有“家庭生活语料信息”,那么我们可以结合这些语料信息,加上目前收集到的“车载导航”背景语料信息共同进行模型训练。
面对这种情况,常规的数据集划分方式有两种:

  • 混合所有语料信息(shuffle),并按照常规Train-Dev-Test方式进行划分。
    这种方式显然是不合理的。在进行机器学习系统开发时,最关键的环节之一是明确目标(target),如果训练目标都不准确,那么即使进行了大量的训练也不会取得良好的实用效果。
    为什么说这种划分方式可能出现目标偏差呢?
    在“车载导航”系统的背景下其实这是显而易见的,如果我们混合了其他语料背景下的信息作为 dev 以及 test set 的数据,那么我们就存在偏离目标的可能。(因为通常评估一个模型的优劣是基于模型在 dev 以及 test 数据集上的表现来判断的)
  • 将“车载导航”语料背景下的数据划分为两部分,一部分作为 dev 以及 test 数据集,另一部分加入 train 数据集中。
    这样解决了前面提到的目标偏差的问题,但是很显然这样同样是存在问题的,见下小节

3 什么是 data-dismatch problem?

在上一小节中我们提出了两种数据集划分方式,针对第一种数据集划分方式我们提出了其问题,那么对于第二种数据集划分方式又存在什么问题呢?
事实上,如果仅仅只是加入了少量其他背景下的语料信息那么第二种数据集划分方式是合理的,但是假设以下状况:其他背景下的语料信息共有500,000条,而“车载导航”背景下的语料信息仅有10,000条。在这种偏差巨大的情况下,由于数据集偏差引发的问题就凸显出来了:我们可能在 train set 上表现良好,但是当迁移到 dev 或者 test 数据集上时则表现急剧下降。这就是我们所说的data-dismatch problem.


4 通过train-dev set 甄别数据不匹配错误

解决问题的前提是能够准确的发现问题,只有证明问题的存在我们才能够对症下药,不浪费宝贵的开发时间。

  • 通过 train-dev set 甄别数据不匹配错误

首先什么是train-dev set?简单而言就是将原来的 train set 作进一步的划分,分解为 train set 与 train-dev set 两部分。
数据集划分
那么 train-dev set 是如何甄别数据不匹配错误的呢?这里引用一张Anderw Ng授课PPT:
Andrew Ng
模型的训练仍然仅在 train set 上进行,而 train-dev set 则充当了常规模型训练时的 dev set 的作用,用来衡量 variance 的大小。而 train-dev set 与 dev set 的对比则成为了甄别数据不匹配问题的关键。如果两者差距较大则说明数据偏差较大需要进一步改善,否则说明该问题并不关键。


5 如何改善数据不匹配问题?

完成了问题的甄别如何改善呢?事实上,截止目前为止仍然没有较为系统的解决办法,以下为可供参考的解决方案:

  • 人工差别分析:当我们甄别到存在数据不匹配问题时则说明 train set 与 dev/test set 之间存在较大的差别。基于以上观点,我们可以观察这些数据差别究竟在哪里并为后面的工作指明方向。
  • 制造数据:基于差别分析我们可以认识到数据差异在何处。还是以之前的“车载导航”系统为例,假设经过分析我们认识当其他语料背景下的信息与车载语料背景下信息的最大差异在于车载语料背景存在很多的噪音。在这种情况下,我们可以通过信息合成的手段(synthesis)制造符合分布期望的数据集。需要注意的是,如果我们的制造方式不合理可能出现其他问题,如对特定的噪声特别敏感等等

6 小结

以上即为本篇文章的全部内容,感谢大家阅读。
求赞求收藏!!

转载请注明出处,感谢!

这篇关于什么是Data-dismatch problem?如何甄别及处理?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/603715

相关文章

电脑提示xlstat4.dll丢失怎么修复? xlstat4.dll文件丢失处理办法

《电脑提示xlstat4.dll丢失怎么修复?xlstat4.dll文件丢失处理办法》长时间使用电脑,大家多少都会遇到类似dll文件丢失的情况,不过,解决这一问题其实并不复杂,下面我们就来看看xls... 在Windows操作系统中,xlstat4.dll是一个重要的动态链接库文件,通常用于支持各种应用程序

SQL Server数据库死锁处理超详细攻略

《SQLServer数据库死锁处理超详细攻略》SQLServer作为主流数据库管理系统,在高并发场景下可能面临死锁问题,影响系统性能和稳定性,这篇文章主要给大家介绍了关于SQLServer数据库死... 目录一、引言二、查询 Sqlserver 中造成死锁的 SPID三、用内置函数查询执行信息1. sp_w

Java对异常的认识与异常的处理小结

《Java对异常的认识与异常的处理小结》Java程序在运行时可能出现的错误或非正常情况称为异常,下面给大家介绍Java对异常的认识与异常的处理,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参... 目录一、认识异常与异常类型。二、异常的处理三、总结 一、认识异常与异常类型。(1)简单定义-什么是

Golang 日志处理和正则处理的操作方法

《Golang日志处理和正则处理的操作方法》:本文主要介绍Golang日志处理和正则处理的操作方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录1、logx日志处理1.1、logx简介1.2、日志初始化与配置1.3、常用方法1.4、配合defer

springboot加载不到nacos配置中心的配置问题处理

《springboot加载不到nacos配置中心的配置问题处理》:本文主要介绍springboot加载不到nacos配置中心的配置问题处理,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录springboot加载不到nacos配置中心的配置两种可能Spring Boot 版本Nacos

python web 开发之Flask中间件与请求处理钩子的最佳实践

《pythonweb开发之Flask中间件与请求处理钩子的最佳实践》Flask作为轻量级Web框架,提供了灵活的请求处理机制,中间件和请求钩子允许开发者在请求处理的不同阶段插入自定义逻辑,实现诸如... 目录Flask中间件与请求处理钩子完全指南1. 引言2. 请求处理生命周期概述3. 请求钩子详解3.1

Python处理大量Excel文件的十个技巧分享

《Python处理大量Excel文件的十个技巧分享》每天被大量Excel文件折磨的你看过来!这是一份Python程序员整理的实用技巧,不说废话,直接上干货,文章通过代码示例讲解的非常详细,需要的朋友可... 目录一、批量读取多个Excel文件二、选择性读取工作表和列三、自动调整格式和样式四、智能数据清洗五、

SpringBoot如何对密码等敏感信息进行脱敏处理

《SpringBoot如何对密码等敏感信息进行脱敏处理》这篇文章主要为大家详细介绍了SpringBoot对密码等敏感信息进行脱敏处理的几个常用方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录​1. 配置文件敏感信息脱敏​​2. 日志脱敏​​3. API响应脱敏​​4. 其他注意事项​​总结

Python使用python-docx实现自动化处理Word文档

《Python使用python-docx实现自动化处理Word文档》这篇文章主要为大家展示了Python如何通过代码实现段落样式复制,HTML表格转Word表格以及动态生成可定制化模板的功能,感兴趣的... 目录一、引言二、核心功能模块解析1. 段落样式与图片复制2. html表格转Word表格3. 模板生

Python Pandas高效处理Excel数据完整指南

《PythonPandas高效处理Excel数据完整指南》在数据驱动的时代,Excel仍是大量企业存储核心数据的工具,Python的Pandas库凭借其向量化计算、内存优化和丰富的数据处理接口,成为... 目录一、环境搭建与数据读取1.1 基础环境配置1.2 数据高效载入技巧二、数据清洗核心战术2.1 缺失