VLDB-2020 论文简析:检测和预防众包数据中的混淆标签-Detecting and Preventing Confused Labels in Crowdsourced Data

本文主要是介绍VLDB-2020 论文简析:检测和预防众包数据中的混淆标签-Detecting and Preventing Confused Labels in Crowdsourced Data,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

VLDB2020论文简析:检测和预防众包数据中的混淆标签-Detecting and Preventing Confused Labels in Crowdsourced Data

    • 研究背景
    • 研究目标
    • 问题挑战
    • 作者贡献
    • 总体模型
    • 1 真值发现器的生成模型
    • 2 检测混淆观测的推理算法(MCMC-C)
    • 3 基于MV的贪婪算法
    • 数据集
    • 实验分析
    • 困惑/思考

研究背景

  • 如今,众包通常用于解决类似AI相关的问题,例如对象分类以及为机器学习(ML)算法生成带标签的训练数据。
  • 因为观察的混淆,或者是因为两个对象是相似的,或者因为任务描述解释的差异,众包工作者可能将i类的对象与j类的对象混淆,导致众包工作者标记的数据可能且通常会带有偏差或噪声。
    例如:如下图所示,摩纳哥国旗、波兰国旗和印度尼西亚国旗,红薯和山药,演员Rami Said Malek和皇后乐队主唱Freddie Mercury,通常是因为它们是相似的,导致在众包任务中工作人员出现观察混淆,从而辨别错误。
    在这里插入图片描述
    正如上述例子展示的那样,即使整体工作人员的准确性都非常高,但这些错误在不被注意的情况下,也很可能出现混淆,因为这不是一个全面的问题,只针对某些类。如果不被发现和未纠正,这导致一些类的标签总是错误的。

研究目标

  • (从任务设计者的角度)在标识给出类标签并清晰的地方识别任务标签中的混淆。例如:在用旗帜或食物或著名演员的名字来标记图片的任务中识别混淆。
  • 在众包过程的早期发现混乱(即在少数投票之后),这样就可以尽早提醒任务设计者并改进任务;
  • 能够处理众包标签,以检测和纠正混淆标签。

问题挑战

针对上述情况,对象分类任务中混淆错误的真值发现问题的解决具有以下困难挑战:

  • ① 一个能检测混淆错误的真值发现模型
    需要扩展现有的真值发现模型,使其能够对可能的混淆错误进行建模和推理,但是没有任何现有真相发现模型的解决方案能够做到这一点。
  • ② 需要指定源和对象之间的所有概率依赖关系
  • ③ 计算上的时间、空间复杂度考虑
    为了检测和考虑混淆错误,需要测试所有可能的混淆,并查看其中哪些可能存在混淆。这是一个计算上昂贵的操作,它需要搜索指数数量的状态可能性(Nc个可能的混淆观察有2^Nc个状态)。
  • ④ 研究针对的是在一组可能被混淆的类中的情况。
    必须从数据中学习模型参数的数量和类型并且能够在工人、物品和标签的数量上进行缩放,才能有效地做到这一点。

作者贡献

  • 问题建模为一个分类任务,并引入了“聚类”( 生成的聚类就是假设的互相混淆的对象组)的概念,通过显式建模混淆来扩展这个基本模型。然后

这篇关于VLDB-2020 论文简析:检测和预防众包数据中的混淆标签-Detecting and Preventing Confused Labels in Crowdsourced Data的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/358951

相关文章

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

C#解析JSON数据全攻略指南

《C#解析JSON数据全攻略指南》这篇文章主要为大家详细介绍了使用C#解析JSON数据全攻略指南,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、为什么jsON是C#开发必修课?二、四步搞定网络JSON数据1. 获取数据 - HttpClient最佳实践2. 动态解析 - 快速

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口

Linux系统性能检测命令详解

《Linux系统性能检测命令详解》本文介绍了Linux系统常用的监控命令(如top、vmstat、iostat、htop等)及其参数功能,涵盖进程状态、内存使用、磁盘I/O、系统负载等多维度资源监控,... 目录toppsuptimevmstatIOStatiotopslabtophtopdstatnmon

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查