【深度学习:Synthetic Training Data 】合成训练数据简介

2024-01-12 12:12

本文主要是介绍【深度学习:Synthetic Training Data 】合成训练数据简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

【深度学习:Synthetic Training Data 】合成训练数据简介

    • 什么是合成训练数据?
    • 创建合成数据的两种方法

尽管文明正在产生大量的数据(根据最近的研究,每天有 2.5 万亿字节的新数据),但计算机视觉和机器学习数据科学家在获取足够的数据来训练和制作计算机视觉模型时仍然面临许多挑战。

算法生成的模型需要对大量数据进行训练,但有时这些数据并不容易获得。

设计高风险生产模型的机器学习工程师在整理训练数据时面临困难,因为大多数模型在投入生产时必须处理大量边缘情况。

只有少数错误的人工智能模型仍然可能产生灾难性的结果。考虑一家寻求将其汽车上路的自动驾驶汽车公司。在这些汽车中运行的人工智能模型需要对每种边缘情况具有准确、快速和实时的预测能力,例如区分行人和行人的倒影,以便车辆可以采取规避行动或继续正常驾驶。

不幸的是,高质量的行人反射图像并不像行人照片那样容易获得。

在机器学习可能产生最重大潜在影响的某些领域,很难找到足够大的训练数据。

考虑一家医疗人工智能公司,试图建立一个诊断罕见疾病的模型。该模型可能需要在数十万张图像上进行训练才能准确执行,但对于这种边缘情况,可能只有几千张图像。其他医学成像数据可能被锁定在私人患者记录中,构建这些模型的数据科学团队可能无法访问这些记录。

即使使用大量开源数据集,您所需的图像或视频数据集也可能不可用。

在这个场景中你能做什么?

答案是生成合成数据、图像、视频和合成数据集。

在这里插入图片描述

开源合成脑图像

什么是合成训练数据?

简而言之,图像和视频等合成数据是人工制造的,而不是从真实世界的事件(如MRI扫描或卫星图像)中捕获的。

合成数据会显著增加这些难以找到的数据集的大小。因此,使用合成数据增强真实世界的数据集可能意味着可行的生产就绪型计算机视觉模型与由于没有足够的数据进行训练而不可行之间的差异。

请记住,任何一种以数据为中心的方法都取决于将正确数据导入模型的能力。以下是我们对为您的计算机视觉模型选择最佳数据的看法。

在无法查找数据的情况下,为机器学习模型创建和使用合成数据集是最有效的方法。

创建合成数据的两种方法

多年来,Unity和Unreal等游戏引擎使游戏工程师能够构建虚拟环境。这些 3D 物理模型与编写代码很好地集成在一起,因此在生成某些类型的合成数据时非常有用。

由于人类现在对物理世界的物理学和相互作用有了深刻的理解,因此数字工程师可以设计这些模型来复制光与不同材料和表面的相互作用。这意味着他们可以继续改变 3D 环境并生成更多包含各种情况和边缘情况的数据。

例如,如果机器学习工程师正在训练自动驾驶汽车模型,数据工程师可以模拟不同的照明场景来创建行人的反射。然后,机器学习工程师将有足够的数据来训练模型,以学习区分行人和实际行人的反射。同样,数据工程师还可以生成代表不同天气情况(晴天、多云、朦胧、下雪)的数据,以便 ML 工程师可以训练模型在各种天气条件下表现适当。

在这里插入图片描述

Unity游戏引擎的实际应用

不幸的是,游戏引擎在生成合成数据时有一定的局限性。有时,没有足够的信息或对工作原理的理解来创建数据科学团队所需的边缘案例的 3D 版本。例如,在医学成像方面,来自相机型号和软件、图像格式文件、肠道健康、患者饮食等的许多因素 ⏤ 使模拟数据具有挑战性。

在这些场景中,数据工程师可以使用真实世界的数据,通过深度学习综合生成更多数据,而不是构建 3D 表示。

机器学习使他们能够生成人工数据,而不是从科学家或游戏工程师编程的一组参数中生成人工数据,而是从在真实世界数据集上训练的神经网络中生成。

生成对抗网络 (GAN) 是一个相对较新的发展,它允许我们通过设置两个神经网络来创建合成数据。其中一个模型(生成模型)接受随机输入并生成数据,另一个模型(判别模型)的任务是确定它输入的数据是真实世界的示例还是生成器模型制作的示例。

随着GAN的迭代,这两个“对立的模型”将相互训练和学习。如果生成器未能完成创建可信/逼真的合成数据的任务,它会调整其参数,而鉴别器保持不变。如果鉴别器未能完成将合成数据识别为“假”数据的任务,则会在生成器保持原样的情况下调整其参数。

在这里插入图片描述
在多次迭代中,这种相互作用将提高判别模型区分真实数据和合成数据的准确性。同时,生成模型在每次未能“愚弄”鉴别器时都会纳入反馈,从而随着时间的推移提高其创建准确合成数据的有效性。当这个训练完成时,GAN将创建高质量的合成数据,这些数据可以补充训练数据集,否则这些数据集将缺乏足够的真实世界数据来训练模型。

当然,使用合成数据有利有弊。在我的下一篇文章中,我将讨论使用 GAN 生成的合成数据的一些好处,以及这种方法带来的一些挑战。

这篇关于【深度学习:Synthetic Training Data 】合成训练数据简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/597835

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L