【深度学习:Synthetic Training Data 】合成训练数据简介

2024-01-12 12:12

本文主要是介绍【深度学习:Synthetic Training Data 】合成训练数据简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

【深度学习:Synthetic Training Data 】合成训练数据简介

    • 什么是合成训练数据?
    • 创建合成数据的两种方法

尽管文明正在产生大量的数据(根据最近的研究,每天有 2.5 万亿字节的新数据),但计算机视觉和机器学习数据科学家在获取足够的数据来训练和制作计算机视觉模型时仍然面临许多挑战。

算法生成的模型需要对大量数据进行训练,但有时这些数据并不容易获得。

设计高风险生产模型的机器学习工程师在整理训练数据时面临困难,因为大多数模型在投入生产时必须处理大量边缘情况。

只有少数错误的人工智能模型仍然可能产生灾难性的结果。考虑一家寻求将其汽车上路的自动驾驶汽车公司。在这些汽车中运行的人工智能模型需要对每种边缘情况具有准确、快速和实时的预测能力,例如区分行人和行人的倒影,以便车辆可以采取规避行动或继续正常驾驶。

不幸的是,高质量的行人反射图像并不像行人照片那样容易获得。

在机器学习可能产生最重大潜在影响的某些领域,很难找到足够大的训练数据。

考虑一家医疗人工智能公司,试图建立一个诊断罕见疾病的模型。该模型可能需要在数十万张图像上进行训练才能准确执行,但对于这种边缘情况,可能只有几千张图像。其他医学成像数据可能被锁定在私人患者记录中,构建这些模型的数据科学团队可能无法访问这些记录。

即使使用大量开源数据集,您所需的图像或视频数据集也可能不可用。

在这个场景中你能做什么?

答案是生成合成数据、图像、视频和合成数据集。

在这里插入图片描述

开源合成脑图像

什么是合成训练数据?

简而言之,图像和视频等合成数据是人工制造的,而不是从真实世界的事件(如MRI扫描或卫星图像)中捕获的。

合成数据会显著增加这些难以找到的数据集的大小。因此,使用合成数据增强真实世界的数据集可能意味着可行的生产就绪型计算机视觉模型与由于没有足够的数据进行训练而不可行之间的差异。

请记住,任何一种以数据为中心的方法都取决于将正确数据导入模型的能力。以下是我们对为您的计算机视觉模型选择最佳数据的看法。

在无法查找数据的情况下,为机器学习模型创建和使用合成数据集是最有效的方法。

创建合成数据的两种方法

多年来,Unity和Unreal等游戏引擎使游戏工程师能够构建虚拟环境。这些 3D 物理模型与编写代码很好地集成在一起,因此在生成某些类型的合成数据时非常有用。

由于人类现在对物理世界的物理学和相互作用有了深刻的理解,因此数字工程师可以设计这些模型来复制光与不同材料和表面的相互作用。这意味着他们可以继续改变 3D 环境并生成更多包含各种情况和边缘情况的数据。

例如,如果机器学习工程师正在训练自动驾驶汽车模型,数据工程师可以模拟不同的照明场景来创建行人的反射。然后,机器学习工程师将有足够的数据来训练模型,以学习区分行人和实际行人的反射。同样,数据工程师还可以生成代表不同天气情况(晴天、多云、朦胧、下雪)的数据,以便 ML 工程师可以训练模型在各种天气条件下表现适当。

在这里插入图片描述

Unity游戏引擎的实际应用

不幸的是,游戏引擎在生成合成数据时有一定的局限性。有时,没有足够的信息或对工作原理的理解来创建数据科学团队所需的边缘案例的 3D 版本。例如,在医学成像方面,来自相机型号和软件、图像格式文件、肠道健康、患者饮食等的许多因素 ⏤ 使模拟数据具有挑战性。

在这些场景中,数据工程师可以使用真实世界的数据,通过深度学习综合生成更多数据,而不是构建 3D 表示。

机器学习使他们能够生成人工数据,而不是从科学家或游戏工程师编程的一组参数中生成人工数据,而是从在真实世界数据集上训练的神经网络中生成。

生成对抗网络 (GAN) 是一个相对较新的发展,它允许我们通过设置两个神经网络来创建合成数据。其中一个模型(生成模型)接受随机输入并生成数据,另一个模型(判别模型)的任务是确定它输入的数据是真实世界的示例还是生成器模型制作的示例。

随着GAN的迭代,这两个“对立的模型”将相互训练和学习。如果生成器未能完成创建可信/逼真的合成数据的任务,它会调整其参数,而鉴别器保持不变。如果鉴别器未能完成将合成数据识别为“假”数据的任务,则会在生成器保持原样的情况下调整其参数。

在这里插入图片描述
在多次迭代中,这种相互作用将提高判别模型区分真实数据和合成数据的准确性。同时,生成模型在每次未能“愚弄”鉴别器时都会纳入反馈,从而随着时间的推移提高其创建准确合成数据的有效性。当这个训练完成时,GAN将创建高质量的合成数据,这些数据可以补充训练数据集,否则这些数据集将缺乏足够的真实世界数据来训练模型。

当然,使用合成数据有利有弊。在我的下一篇文章中,我将讨论使用 GAN 生成的合成数据的一些好处,以及这种方法带来的一些挑战。

这篇关于【深度学习:Synthetic Training Data 】合成训练数据简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/597835

相关文章

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

Java Docx4j类库简介及使用示例详解

《JavaDocx4j类库简介及使用示例详解》Docx4j是一个强大而灵活的Java库,非常适合需要自动化生成、处理、转换MicrosoftOffice文档的服务器端或后端应用,本文给大家介绍Jav... 目录1.简介2.安装与依赖3.基础用法示例3.1 创建一个新 DOCX 并添加内容3.2 读取一个已存

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl