【深度学习:Synthetic Training Data 】合成训练数据简介

2024-01-12 12:12

本文主要是介绍【深度学习:Synthetic Training Data 】合成训练数据简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

【深度学习:Synthetic Training Data 】合成训练数据简介

    • 什么是合成训练数据?
    • 创建合成数据的两种方法

尽管文明正在产生大量的数据(根据最近的研究,每天有 2.5 万亿字节的新数据),但计算机视觉和机器学习数据科学家在获取足够的数据来训练和制作计算机视觉模型时仍然面临许多挑战。

算法生成的模型需要对大量数据进行训练,但有时这些数据并不容易获得。

设计高风险生产模型的机器学习工程师在整理训练数据时面临困难,因为大多数模型在投入生产时必须处理大量边缘情况。

只有少数错误的人工智能模型仍然可能产生灾难性的结果。考虑一家寻求将其汽车上路的自动驾驶汽车公司。在这些汽车中运行的人工智能模型需要对每种边缘情况具有准确、快速和实时的预测能力,例如区分行人和行人的倒影,以便车辆可以采取规避行动或继续正常驾驶。

不幸的是,高质量的行人反射图像并不像行人照片那样容易获得。

在机器学习可能产生最重大潜在影响的某些领域,很难找到足够大的训练数据。

考虑一家医疗人工智能公司,试图建立一个诊断罕见疾病的模型。该模型可能需要在数十万张图像上进行训练才能准确执行,但对于这种边缘情况,可能只有几千张图像。其他医学成像数据可能被锁定在私人患者记录中,构建这些模型的数据科学团队可能无法访问这些记录。

即使使用大量开源数据集,您所需的图像或视频数据集也可能不可用。

在这个场景中你能做什么?

答案是生成合成数据、图像、视频和合成数据集。

在这里插入图片描述

开源合成脑图像

什么是合成训练数据?

简而言之,图像和视频等合成数据是人工制造的,而不是从真实世界的事件(如MRI扫描或卫星图像)中捕获的。

合成数据会显著增加这些难以找到的数据集的大小。因此,使用合成数据增强真实世界的数据集可能意味着可行的生产就绪型计算机视觉模型与由于没有足够的数据进行训练而不可行之间的差异。

请记住,任何一种以数据为中心的方法都取决于将正确数据导入模型的能力。以下是我们对为您的计算机视觉模型选择最佳数据的看法。

在无法查找数据的情况下,为机器学习模型创建和使用合成数据集是最有效的方法。

创建合成数据的两种方法

多年来,Unity和Unreal等游戏引擎使游戏工程师能够构建虚拟环境。这些 3D 物理模型与编写代码很好地集成在一起,因此在生成某些类型的合成数据时非常有用。

由于人类现在对物理世界的物理学和相互作用有了深刻的理解,因此数字工程师可以设计这些模型来复制光与不同材料和表面的相互作用。这意味着他们可以继续改变 3D 环境并生成更多包含各种情况和边缘情况的数据。

例如,如果机器学习工程师正在训练自动驾驶汽车模型,数据工程师可以模拟不同的照明场景来创建行人的反射。然后,机器学习工程师将有足够的数据来训练模型,以学习区分行人和实际行人的反射。同样,数据工程师还可以生成代表不同天气情况(晴天、多云、朦胧、下雪)的数据,以便 ML 工程师可以训练模型在各种天气条件下表现适当。

在这里插入图片描述

Unity游戏引擎的实际应用

不幸的是,游戏引擎在生成合成数据时有一定的局限性。有时,没有足够的信息或对工作原理的理解来创建数据科学团队所需的边缘案例的 3D 版本。例如,在医学成像方面,来自相机型号和软件、图像格式文件、肠道健康、患者饮食等的许多因素 ⏤ 使模拟数据具有挑战性。

在这些场景中,数据工程师可以使用真实世界的数据,通过深度学习综合生成更多数据,而不是构建 3D 表示。

机器学习使他们能够生成人工数据,而不是从科学家或游戏工程师编程的一组参数中生成人工数据,而是从在真实世界数据集上训练的神经网络中生成。

生成对抗网络 (GAN) 是一个相对较新的发展,它允许我们通过设置两个神经网络来创建合成数据。其中一个模型(生成模型)接受随机输入并生成数据,另一个模型(判别模型)的任务是确定它输入的数据是真实世界的示例还是生成器模型制作的示例。

随着GAN的迭代,这两个“对立的模型”将相互训练和学习。如果生成器未能完成创建可信/逼真的合成数据的任务,它会调整其参数,而鉴别器保持不变。如果鉴别器未能完成将合成数据识别为“假”数据的任务,则会在生成器保持原样的情况下调整其参数。

在这里插入图片描述
在多次迭代中,这种相互作用将提高判别模型区分真实数据和合成数据的准确性。同时,生成模型在每次未能“愚弄”鉴别器时都会纳入反馈,从而随着时间的推移提高其创建准确合成数据的有效性。当这个训练完成时,GAN将创建高质量的合成数据,这些数据可以补充训练数据集,否则这些数据集将缺乏足够的真实世界数据来训练模型。

当然,使用合成数据有利有弊。在我的下一篇文章中,我将讨论使用 GAN 生成的合成数据的一些好处,以及这种方法带来的一些挑战。

这篇关于【深度学习:Synthetic Training Data 】合成训练数据简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/597835

相关文章

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类