数据质量与策略:解锁生成式AI潜力的关键步骤

2024-04-21 00:44

本文主要是介绍数据质量与策略:解锁生成式AI潜力的关键步骤,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

虽然不太花哨,但根据对334名数据领导者的调查,AI的准备工作归根到底还是一些基础问题——企业数据的格式和质量。

许多组织对生成式AI兴奋异常,正积极布局以利用此技术。董事会正在举办教育研讨会并鼓励公司采取行动。高级管理团队在思考开发哪些用例。个人和部门也在试验这项技术如何提高他们的生产力和效率。

然而,真正关键的工作却落在了首席数据官(CDO)、数据工程师和知识策展人身上。不幸的是,许多人甚至还没开始做这些必要的工作。2023年下半年的一项调查显示,尽管这些数据领导者对生成式AI的热情与其他人一样高涨,他们还有很多准备工作要做。

特别是在数据准备方面,许多公司尚未创建新的数据战略,或开始以利用生成式AI所需的方式管理数据。

我们将描述这项调查的结果以及这意味着对数据的下一步操作。

最大化价值

AI历史上处理的是结构化数据,通常是行和列中的数字。但生成式AI使用非结构化数据——文本、图片甚至视频——来生成新的或重新组合的非结构化数据形式。它为人类内容创作者提供了帮助,也带来了竞争。CDO和数据领导者对这项技术的热情相同:80%的人同意它最终会改变他们组织的商业环境,62%的人说他们的组织计划增加在生成式AI上的投入。这项技术也让他们的角色受到了很多关注。

然而,调查参与者表示,大多数人尚未从他们的生成式AI使用中获得实质性经济价值。当被问及他们的组织如何处理生成式AI时,近三分之一的人表示他们在“个人层面上进行实验”,而不是为企业创建用例。另外21%的人表示他们在进行实验,但对员工使用有指导方针。略少的比例,19%,在部门或业务单元层面进行实验。

最重要的是,只有6%的人将生成式AI应用投入生产部署。

令人惊讶的是,有16%的人指出他们的组织禁止员工使用,尽管随着公司处理数据隐私问题和企业版生成式AI模型的出现,这种做法正在减少。

使用生成式AI的实验应该涉及业务的核心方面。一家积极用生成式AI进行研发实验的公司是环球音乐。公司对这项技术的浓厚兴趣并不奇怪,因为生成式AI可以创作音乐、编写歌词、模仿艺术家的声音。环球正在探索如何在保护艺术家知识产权的同时使用生成式AI。它还在进行另一个实验,使用环球艺术家的声音(得到他们的许可和参与)创作AI版本的歌曲。公司还对一个AI提供商采取了法律行动,以保护其艺术家的版权。

政策和概念验证可以有用,但它们不产生经济价值。

为了让生成式AI对公司真正有价值,它们需要用自己的数据定制供应商的语言或图像模型,并做好内部数据准备工作以便整合。

数据准备是成功的关键

生成式AI使用的相对非结构化数据需要精心策划,确保其准确性、新颖性、独特性和其他属性,如果使用这些数据的生成式AI模型才会非常有用。内部数据质量差将导致生成式AI模型反馈的质量差。

我们调查中的许多数据领导者都反映了这一挑战:46%的人将“数据质量”确定为实现生成式AI潜力的最大挑战。

摩根士丹利财富管理的首席数据、分析和创新官杰夫·麦克米伦描述了一些涉及的问题:

“每一份研究内容都必须由注册合规人员审查,所以我们知道培训内容的质量非常高。即使在非研究内容中,我们也有一个团队对单个提交评分,涉及标签要求、链接是否损坏、是否有前言总结等,我们会给每份文档打分。

我们还必须花很多时间考虑不同的内容集和优化结果……这些大型语言模型不能解决不同数据来源的问题。公司需要在尝试使用生成式AI获取数据之前,解决数据整合和掌握的问题。”

大多数数据领导者尚未开始在他们的数据策略中进行必要的改变。尽管93%的调查应答者同意数据策略对从生成式AI中获得价值至关重要,但57%的人表示他们的组织的数据迄今为止没有变化。只有37%的人同意——且只有11%的人强烈同意——他们的组织拥有适合生成式AI的正确数据基础。换句话说,

大多数组织在广泛应用生成式AI方面还有大量工作要做。

那些开始进行变革的数据领导者专注于几项具体任务。四分之一的组织正在进行数据整合或清理数据集。18%的人正在调查可能支持使用生成式AI的数据。还有17%的人在策划文档或文本以准备用于特定领域的生成式AI模型。

默克集团的集团首席数据和AI官瓦利德·梅汉纳强调了几种类型的数据准备的重要性:“如果我们要做AI,我们需要在混凝土上建造,而不是流沙上。我们正在使流程和数据供应处于良好状态。我们正在处理数据清单和目录、具有新数据结构和元数据层的数据织物、数据管道以及临时自助服务洞察生成。我们相信生成式AI将是未来从数据中创造洞察力的关键方式。”

赛诺菲的研发首席数据官拉杰·尼玛加达也表示,公司正在为生成式AI准备数据,并告诉我们

成功的生成式AI“取决于高质量、‘业务就绪’的数据,这些数据是由坚实的数据基础、数据治理和标准指导的。”他说,赛诺菲目前正在投资构建这些核心能力,以支持其研发。

就像数据转换一般,对大多数组织而言,策划、清理和整合所有非结构化数据以用于生成式AI应用将是一项巨大的努力。因此,大多数公司应该专注于他们预期将在不久的将来实施生成式AI的特定数据领域。公司可能需要较长时间才能使用生成式AI并从中创造价值。

在调查中,数据领导者优先发展生成式AI的商业领域依次是:客户操作(如客服或聊天机器人)、软件工程/代码生成、营销和销售活动(如个性化营销活动或销售优惠)以及研发/产品设计和开发。许多组织还在追求整体个人生产力应用的生成式AI,但这不太可能涉及特定的数据领域。

现在就是开始的时候

虽然我们认为数据领导者应该加快准备他们的数据以用于生成式AI的步伐,但我们也认识到还有其他重要的数据项目,包括改进交易数据和使数据可用于传统分析和机器学习应用。事实上,这种步伐有些缓慢的一个原因可能是71%的CDO同意“生成式AI很有趣,但我们更专注于其他数据计划以提供更有形的价值”。

鉴于对生成式AI的高度热情,这一调查结果有些令人惊讶。在2022年的调查中,CDO面临迅速交付价值的压力,但也需要促进生成式AI的实施。我们怀疑他们从管理和改进结构化数据到非结构化内容的转变有些缓慢。此外,关于谁应该领导公司内生成式AI的竞争也存在;CDO正在与CIO、CTO和首席数字官争夺这项新兴技术的领导权。

如果生成式AI将改变组织,那么等待开始准备数据是没有意义的。我们——以及大多数调查应答者——都同意生成式AI是一项变革性能力。让一个大组织的重要数据为AI做好准备可能需要几年时间。现在就是开始的时候。

这篇关于数据质量与策略:解锁生成式AI潜力的关键步骤的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/921765

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略(Key Expir

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键

解决mysql插入数据锁等待超时报错:Lock wait timeout exceeded;try restarting transaction

《解决mysql插入数据锁等待超时报错:Lockwaittimeoutexceeded;tryrestartingtransaction》:本文主要介绍解决mysql插入数据锁等待超时报... 目录报错信息解决办法1、数据库中执行如下sql2、再到 INNODB_TRX 事务表中查看总结报错信息Lock