为什么AI模型需要合乎道德的数据

2024-04-10 15:04

本文主要是介绍为什么AI模型需要合乎道德的数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

道德问题简介

“合乎道德的数据”和“负责任的数据”这两个词的含义可能并不明确。在科技界和AI数据界,道德原则是指负责任地采集和使用数据用以训练模型,并确保这些模型不带偏见地与人类交互。不仅为训练模型负责任地采集和使用数据很重要,而且模型本身也需要对社会产生积极的影响,不得用于赚取不道德的利益。

根据我们的2022年《AI和机器学习全景报告》,93%的受访者认为,负责任的AI是其所在企业所有AI项目的基础。作为所有AI项目的一个组成部分,道德原则是该报告的第五个、也是最后一个要点。我们看到,人们越来越重视确保AI生命周期各阶段均能以负责任的方式推进,主要关注减少偏见以及获取合乎道德的数据。

道德的基础

为确保能够以合乎道德和负责任的AI创建机器学习模型,模型需要满足以下要求:

  • 不含个人身份信息(PII)
  • 获得从每位标注员采集数据的权限
  • 包含代表各类人群的人类数据
  • 结果将大有助益而不是相反
  • 数据采集人员在整个过程中保持中立
  • 遵守国家和政府数据法规

这些要求看似简单,实则不易满足,在所有的数据获取、准备和评估工作中,都需要真正尽心尽力,才能提供合乎道德的AI产品。

负责任的数据采集

确保数据合乎道德并负责任地获取数据,其最大的一个推动力是数据采集最初存在的不足。有一种误解是,认为使用少量数据也可以正确训练AI模型。如果缺少足够的数据来正确地训练模型,有限的数据集则可能会将偏见引入模型。以一个推荐食物或玩具的AI宠物应用程序为例。如果训练数据基于只养猫的人,模型就无法训练为养狗或养鸟的人提供适当的建议。

要确保数据获取合乎道德且无偏见,最好的一种方法就是雇用对项目没有情感投入的人来采集数据。即使初衷良好,任何人也很容易在不知不觉中采集到更多倾向于自己喜欢或认同的想法的数据。在宠物应用程序的例子中,喜欢狗的人可能会无意中更多地采集养狗人的数据,而不是向养其他宠物的人采集数据。这样,训练结果就会产生偏见,使得该应用程序在与狗有关的查询中表现更佳,而在有关其他宠物的查询中则差强人意。招募中立的第三方来采集数据,并采取适当的保障措施,以确保采集的数据来自多样化的、有代表性的标注员,所有使用模型的人将同样受益。

合乎道德的数据准备

在完成所有数据采集后,必须删除PII,以确保标注员的隐私权得到维护。这点对于与医疗保健相关的机器学习模型尤其重要,因为共享患者的健康状况违反了《健康保险可携性和责任法案》(HIPPA)。为防止发生PII问题,企业可以采取的一种方法是使用合成数据。合成数据集将始终不受PII的限制,它可以帮助为不太常见的用例生成数据,涵盖模型的所有场景。另一种预防PII问题的方法是,与Quadrant合作,使用我们的Geolancer程序,该程序可以在将上传的目标点和图像数据集提供给客户之前,自动将其从上传的目标点和图像数据集中删除。为确保我们所使用的数据的采集合乎道德,我们利用我们的全球众包人员采集数据,他们涵盖不同群体,这样就能防止模型中出现偏见。

合乎道德的AI的应用

尽管许多AI模型是为了改善生活或简化任务而开发的,但好的技术落入坏人之手也可能产生危险的后果。创建AI项目的公司必须考虑成品的实际使用情况。

对于大多数程序和产品而言,人们使用它们的好处显而易见。这可以很简单,比如获得商品购买建议,或者使用程序编辑论文以正确使用语法。然而,模型中使用的数据源自人们的生活,世界上总有人会尝试对数据进行逆向工程。他们这样做是企图发现人们的身份,或者修改现有的程序,以达到不道德的目的。因此,世界各国政府纷纷制定了特殊的数据要求,以确保所有数据的获取合乎道德并且负责任,不会落入坏人之手。

如果采取了上述所有措施,确保数据的采集和使用是负责任的,则模型的训练将合乎道德。最终产品就将发挥预期作用,并对消费者的生活产生积极的影响。考虑到各种潜在的风险和益处,显然,在我们的调查中,企业领导者和技术专家都认同它的重要性。

这篇关于为什么AI模型需要合乎道德的数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/891395

相关文章

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

Spring AI使用tool Calling和MCP的示例详解

《SpringAI使用toolCalling和MCP的示例详解》SpringAI1.0.0.M6引入ToolCalling与MCP协议,提升AI与工具交互的扩展性与标准化,支持信息检索、行动执行等... 目录深入探索 Spring AI聊天接口示例Function CallingMCPSTDIOSSE结束语

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

C#解析JSON数据全攻略指南

《C#解析JSON数据全攻略指南》这篇文章主要为大家详细介绍了使用C#解析JSON数据全攻略指南,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、为什么jsON是C#开发必修课?二、四步搞定网络JSON数据1. 获取数据 - HttpClient最佳实践2. 动态解析 - 快速

三频BE12000国补到手2549元! ROG 魔盒Pro WIFI7电竞AI路由器上架

《三频BE12000国补到手2549元!ROG魔盒ProWIFI7电竞AI路由器上架》近日,华硕带来了ROG魔盒ProWIFI7电竞AI路由器(ROGSTRIXGR7Pro),目前新... 华硕推出了ROG 魔盒Pro WIFI7电竞AI路由器(ROG STRIX GR7 Phttp://www.cppcn

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I