数据标注工程——概念、方法、工具与案例

2024-02-29 19:44

本文主要是介绍数据标注工程——概念、方法、工具与案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

说明:本文章为博主的读书笔记,书名为《数据标注工程——概念、方法、工具与案例》,作者为聂明教授、齐红威博士(数据堂公司董事长)。

目录

  • 第2章 数据标注的概念、工具与方法
      • 2.2.4 文本数据集
      • 2.3.4 文本数据标注工具
    • 2.5 数据标注工程
      • 2.5.3 数据标注
      • 2.5.5 数据交付
  • 第6章 文本数据标注
      • 6.1.2 基本概念
      • 6.1.3 流程介绍
  • 第8章 工程化数据标注的组织管理
    • 8.1 数据标注项目实施流程
      • 8.1.1 数据标注项目
      • 8.1.2 一般项目实施流程
      • 8.1.3 数据标注项目实施流程
  • 第12章 数据标注的发展趋势
    • 12.3 数据标注发展趋势

第2章 数据标注的概念、工具与方法

2.2.4 文本数据集

应用领域数据内容
机器翻译平行语料
自然语言理解实网文本、NLP标注、知识库
智能交通车辆位置数据、用户行为数据
语音识别说话人信息、语料文本、波形文件标注文件

2.3.4 文本数据标注工具

功能描述
实体标注实体:如人名、地名、组织、职位
实体关系标注实体的逻辑关系
文档属性标注属性:如文档类型、文档情感
阅读理解根据文本回答相应的问题
交互意图识别文本的领域、意图、槽位、槽值

2.5 数据标注工程

数据标注工程,也称为工程化数据标注,是指数据产品制造(数据集)的系统化、工程化、流程化的组织与实施过程。

2.5.3 数据标注

不同的标注任务需要不同的客户端,一般图片类和语音类的标注可以通过浏览器实现,这种实现方式的好处在于代码更新可以在服务器端实现,并能对客户端有较强的管控能力;其他如视频标注,因为涉及大量数据的高带宽交互,则需要通过本地客户端的形式对数据进行缓存,并提供更强大的客户端处理和标注能力。

  1. 在进行标注前应完成五项准备工作
    (2)整理数据。明确数据与标签文件存放的目录结构,在任务分配与回收时,应按指定的目录进行数据组织。
    (3)明确命名规则。应明确数据与标签文件的命名方式,命名规则应避免数据更新迭代时的重名,便于数据追踪、标注追踪,且数据文件名与标签文件名应保持一致。
    (5)明确标注数据的定义。

  2. 标注说明规则
    (2)标注说明规则定义。标注说明规则明确项目背景、意义及数据应用场景,包含项目标注工具、任务描述、标注方法、正确实例、常见错误等内容。标注说明规则应有可变更性,该变更由相关方评审同意后再更新文档。
    (5)建立统一的标注术语字典,确保数据标注人员对术语和定义理解的一致性。

  3. 标注人力供给方式(标注人力模式):内部自营标注、第三方标注、众包标注。

  4. 选择的标注工具应满足以下条件:易操作性(提供交互方式的自有标注)、规范性、高效性。
    标注平台包含各种标注工具、团队管理、任务分发、质量审核等环节的模块,且将所有标注环节工具化。当数据量相对较小、数据类型相对单一、标注周期较短时,宜选择标注工具进行标注。

  5. 标注任务创建、分发、开展和回收
    标注数据上传成功后,当仅靠标注数据完成标注时,在创建任务的过程中,任务责任人要事先明确标注任务的目的以及标注规范等。
    (1)创建任务包括以下内容:
    ①明确任务基本信息:包含任务目的、任务需求(任务优先级、标准人员的能力要求级别等)、任务描述等。
    ②任务配置:根据不同的任务需求,匹配不同的标注工具,添加与标注任务相关的标注标签。
    ③将数据路径上传至平台。
    ④进行版本控制。
    (2)标注任务分发。分发者在发布数据时,应明确与标注任务相关的参数:
    ①参与标注人数
    ②任务中子任务数量
    ③数据标注员每人每天工作量
    ④回收子任务时间点
    ⑤任务结束时间点
    标注任务的分发对象包含标注人员和审核人员。分发给前者时,也应分发给后者。在标注过程中,同时进行审核工作。
    如同一个子任务分发给多人参与,则需对每个子任务的回收结果进行比对。
    (3)标注任务开展。标注任务中的数据标注方法分两种:全人工标注和半自动标注。
    (4)标注任务回收。如果未按时交付,则由候补成员继续完成任务。

2.5.5 数据交付

(2)文本类型的数据验收。文本类标注任务的数据结果应包含文本标签的位置和标签的具体内容。输出格式推荐使用JSON、XML、TXT。

第6章 文本数据标注

从本质上看,文本数据标注就是一个监督学习的过程,而标注问题又是更复杂的结构预测问题的简单形式。标注问题的目的在于学习模型,使该模型能够对观测序列给出标记序列作为预测。这也决定了标注问题的工作流程,即输入是一个观测序列,之后输出是一个标记序列或者状态序列

6.1.2 基本概念

  1. 序列标注
    序列标注是一个比较简单的自然语言处理任务,也是最基础的任务。其涵盖范围非常广泛,可用于解决一系列对字符进行分类的问题。
    实体标注用于命名实体识别,其目的是识别出文本里的专有名词(实体)且属于哪个类(实体类别)。
    词性标注可标注文本内容的实体名称、实体属性和实体关系。
    意图理解数据就是搜集各种用户的问法,然后按领域分类,标记每句话所属的意图以及槽位、槽值。领域是一个大分类。意图代表客户明确要问的事情。每个意图会定义一组槽位,就是用户问句里会出现的关键词类别。一个槽位在不同句子里会有不同的槽值。

  2. 关系标注
    关系标注是对复句的句法关联和语义关联做出重要标示的一种任务,是复句自动分析的形式标记。关系标注涉及到知识图谱。知识图谱,也叫知识库,客户用来做查询和推理用。知识图谱的结构包括实体、属性和关系。

  3. 属性标注
    属性标注就是对文本数据中的对象属性进行标签。情感标注是文本标注的重点内容。

6.1.3 流程介绍

(1)预处理
(2)标注。线下标注可通过线下小工具或线下文本等进行操作。
(3)质检。
(4)验收。
(5)数据处理。
(6)数据交付:数据加密后交付客户。

第8章 工程化数据标注的组织管理

8.1 数据标注项目实施流程

8.1.1 数据标注项目

数据产品生产企业以项目的方式来组织和实施每一项数据标注业务,数据标注业务以项目的方式存在于企业内部。数据标注项目的管理目标和实施过程是基于现代化项目管理知识体系和理论的。

8.1.2 一般项目实施流程

(1)项目售前:销售引导跟客户沟通其业务需求,售前及数据产品经理会对需求可实施性及价格做评估。
(2)项目准备:组建项目团队,协调内外部资源,制订项目管理和实施计划,准备项目所需软硬件环境,进行相关培训,召开项目启动会。
(3)项目建设:详细业务需求调研和确认,部署测试环境,制定和分发项目实施操作规范,按照项目实施计划进行项目实施,以及变更管理和实施等。
(4)项目交付:对项目成果物按照验收需求进行整体验收确认,之后交由客户进行确认。
(5)项目售后(支持):根据客户反馈对项目进行总结评估,对客户使用及操作上的问题进行支持等。

8.1.3 数据标注项目实施流程

(1)启动阶段
汇总现阶段所有问题;制订项目具体实施计划;准备项目所需环境和资源,包括软硬件环境,以及所需人力资源;进行相关培训;召开项目启动会

(2)试做阶段
在前阶段准备的基础上,测试一遍小批量的数据的生产-验收-交付流程,确认项目整理流程后,总结其中遇到的问题并给出解决方案

(3)量产阶段
按照项目实施计划,有计划有步骤地开展数据的生产和验收工作

(4)验收阶段
分阶段验收及最终验收

(5)交付阶段
数据交付后等待客户验收和确认。根据客户验收和确认的结果,如发现不合格,都会返回到量产阶段,严重时恢复到试做阶段

(6)总结和售后阶段
针对项目的实施过程进行经验和教训总结,解散项目团队,项目结束

第12章 数据标注的发展趋势

12.3 数据标注发展趋势

定制化精细化发展、智能化流程化发展(管理和执行一体化,任务拆分和工序制定)。

这篇关于数据标注工程——概念、方法、工具与案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/759858

相关文章

Python使用FFmpeg实现高效音频格式转换工具

《Python使用FFmpeg实现高效音频格式转换工具》在数字音频处理领域,音频格式转换是一项基础但至关重要的功能,本文主要为大家介绍了Python如何使用FFmpeg实现强大功能的图形化音频转换工具... 目录概述功能详解软件效果展示主界面布局转换过程截图完成提示开发步骤详解1. 环境准备2. 项目功能结

解决mysql插入数据锁等待超时报错:Lock wait timeout exceeded;try restarting transaction

《解决mysql插入数据锁等待超时报错:Lockwaittimeoutexceeded;tryrestartingtransaction》:本文主要介绍解决mysql插入数据锁等待超时报... 目录报错信息解决办法1、数据库中执行如下sql2、再到 INNODB_TRX 事务表中查看总结报错信息Lock

MySQL启动报错:InnoDB表空间丢失问题及解决方法

《MySQL启动报错:InnoDB表空间丢失问题及解决方法》在启动MySQL时,遇到了InnoDB:Tablespace5975wasnotfound,该错误表明MySQL在启动过程中无法找到指定的s... 目录mysql 启动报错:InnoDB 表空间丢失问题及解决方法错误分析解决方案1. 启用 inno

Linux系统之stress-ng测压工具的使用

《Linux系统之stress-ng测压工具的使用》:本文主要介绍Linux系统之stress-ng测压工具的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、理论1.stress工具简介与安装2.语法及参数3.具体安装二、实验1.运行8 cpu, 4 fo

Maven项目中集成数据库文档生成工具的操作步骤

《Maven项目中集成数据库文档生成工具的操作步骤》在Maven项目中,可以通过集成数据库文档生成工具来自动生成数据库文档,本文为大家整理了使用screw-maven-plugin(推荐)的完... 目录1. 添加插件配置到 pom.XML2. 配置数据库信息3. 执行生成命令4. 高级配置选项5. 注意事

使用C#删除Excel表格中的重复行数据的代码详解

《使用C#删除Excel表格中的重复行数据的代码详解》重复行是指在Excel表格中完全相同的多行数据,删除这些重复行至关重要,因为它们不仅会干扰数据分析,还可能导致错误的决策和结论,所以本文给大家介绍... 目录简介使用工具C# 删除Excel工作表中的重复行语法工作原理实现代码C# 删除指定Excel单元

Linux lvm实例之如何创建一个专用于MySQL数据存储的LVM卷组

《Linuxlvm实例之如何创建一个专用于MySQL数据存储的LVM卷组》:本文主要介绍使用Linux创建一个专用于MySQL数据存储的LVM卷组的实例,具有很好的参考价值,希望对大家有所帮助,... 目录在Centos 7上创建卷China编程组并配置mysql数据目录1. 检查现有磁盘2. 创建物理卷3. 创

Python函数返回多个值的多种方法小结

《Python函数返回多个值的多种方法小结》在Python中,函数通常用于封装一段代码,使其可以重复调用,有时,我们希望一个函数能够返回多个值,Python提供了几种不同的方法来实现这一点,需要的朋友... 目录一、使用元组(Tuple):二、使用列表(list)三、使用字典(Dictionary)四、 使

MySQL 事务的概念及ACID属性和使用详解

《MySQL事务的概念及ACID属性和使用详解》MySQL通过多线程实现存储工作,因此在并发访问场景中,事务确保了数据操作的一致性和可靠性,下面通过本文给大家介绍MySQL事务的概念及ACID属性和... 目录一、什么是事务二、事务的属性及使用2.1 事务的 ACID 属性2.2 为什么存在事务2.3 事务

Nacos日志与Raft的数据清理指南

《Nacos日志与Raft的数据清理指南》随着运行时间的增长,Nacos的日志文件(logs/)和Raft持久化数据(data/protocol/raft/)可能会占用大量磁盘空间,影响系统稳定性,本... 目录引言1. Nacos 日志文件(logs/ 目录)清理1.1 日志文件的作用1.2 是否可以删除