Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”

本文主要是介绍Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ChatGPT 于 2022 年底发布,将大型语言模型 (LLM) 推到了聚光灯下。通过使用户能够直接用自然语言查询模型,ChatGPT 实现了对这些模型的访问——这是一个受欢迎的发展。从那时起,ChatGPT 和 Bard、Claude 和 Bing AI 等类似工具在各种任务中都展示了它们的多功能性和效率。
社会科学家很快就接受了这些模型。他们使用这些基于LLM的AI助手来总结研究文章,调试代码,甚至在计算机模拟中模拟调查参与者,实验对象或代理。研究人员还采用它们来注释文本。通过向机器传递一个简单的提示,他们现在可以对数千个文档进行分类。他们可以根据自己的编码方案快速、精确地做到这一点。
作为多年来一直在使用各种类型的LLM来注释文本数据的社会科学家,我们对这些发展感到兴奋。到目前为止,我们自己的实践包括在特定任务上微调 LLM——也就是说,为模型提供成百上千个示例以“训练”它们。结果是不可否认的,但这些示例的手动注释通常是一个漫长而乏味的过程。
因此,我们欢迎这些模型的到来,但我们也对它们进行了测试。我们将 ChatGPT 的输出与我们的模型的输出进行了比较,并对新生文献进行了彻底的审查。结果有时是好的,有时真的很糟糕。他们很少超过特定任务的 LLM。
然而,这个结论似乎并不是使用这些新方法的最大问题。我们认为,在我们出于科学目的使用这些工具之前,需要解决三个问题。
我们首先关注的是这些模型所获得结果的可复制性。一些人认为 GPT 3.5(为 ChatGPT 免费版本提供动力的模型)对提示很敏感,但另一些人则认为它对收到的请求措辞的微小变化非常强大。
在我们看来,更大问题的是用户无法对分析中使用的模型施加控制。当然,也有经典的批评,认为这些模型是“黑匣子”。我们不知道他们是如何运作的,也不知道他们接受了什么培训。对于专有模型来说,这当然是正确的,但对于它们的开源模型来说,也部分是正确的。在聊天环境中使用助手型模型时,还不清楚它们的额外安全机制是如何运作的。
由于频繁的模型更新,此类模型的结果不稳定,这一事实只会进一步加剧问题。使用我们的数据,使用给定模型进行的实验在几周后重复时通常会产生不同的结果。这当然需要仔细报告所用模型的确切版本。然而,模型并不总是正确存档。开发 ChatGPT 的 OpenAI 等公司甚至倾向于弃用旧模型,使得可重复性几乎不可能(https://platform.openai.com/docs/deprecations)。
第二个值得关注的问题是,由于隐私和知识产权问题,只能使用 GPT 或类似的商业解决方案分析某些类型的数据。可以说,OpenAI 声称它不会“使用您提供给我们的 API 或从我们的 API 接收的内容 […]发展或改善服务“(https://openai.com/policies/terms-of-use)。但这并不意味着他们将来不会这样做,或者以其他方式这样做。
如果要注释的数据受知识产权法保护,则不应将其传输到 OpenAI 平台。事实上,一项使用《纽约时报》文章的大规模研究的作者被迫仅根据标题进行研究,因为其余文本“在公共数据中不可用”。
我们需要注释的文本也可能引发隐私问题。在社会科学中,它们可以由调查中的开放式问题组成,其中包含潜在的识别信息或个人信息,例如医疗状况。这只会进一步推动最近对开源生成式 AI 模型的呼吁。
最后一个关注点与这些LLM对英语的偏见有关。作为有时使用与英语不同的语言的研究人员,我们不禁注意到不同语言的模型性能差异。几篇论文报告说,基于LLM的人工智能助手在英语中表现最好,而在一些资源匮乏的语言中表现相当差。其他人则通过建议先用英语提示模型,或者要求它将提示翻译成英语以获得更好的结果来证实这种趋势。
这种情况肯定会在未来发展,因为 LLM 会接受更多语言的培训。然而,这种观察令人费解,因为考虑到公司或政府的差异投资,语言之间的不平等可能会持续下去。来自资源较少和一小群人使用的语言的地区的语言可能会得到很少的研究时间。这反过来又可能导致对英语语料库的更多关注,而牺牲了其他研究对象和地点。这将是一个错失的机会。
需要明确的是,我们对当前的技术发展感到兴奋,我们在自己的研究中使用了 LLM。我们也乐观地认为,它们可以通过提供负担得起的文本注释方式,在一定程度上帮助减少科学中的不平等,从而为全球更多的研究人员提供文本资源。然而,这些模型所取得的令人眼花缭乱的进步不应掩盖其潜在的缺陷和局限性。

这篇关于Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/702722

相关文章

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

C语言中%zu的用法解读

《C语言中%zu的用法解读》size_t是无符号整数类型,用于表示对象大小或内存操作结果,%zu是C99标准中专为size_t设计的printf占位符,避免因类型不匹配导致错误,使用%u或%d可能引发... 目录size_t 类型与 %zu 占位符%zu 的用途替代占位符的风险兼容性说明其他相关占位符验证示

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

使用IDEA部署Docker应用指南分享

《使用IDEA部署Docker应用指南分享》本文介绍了使用IDEA部署Docker应用的四步流程:创建Dockerfile、配置IDEADocker连接、设置运行调试环境、构建运行镜像,并强调需准备本... 目录一、创建 dockerfile 配置文件二、配置 IDEA 的 Docker 连接三、配置 Do

Android Paging 分页加载库使用实践

《AndroidPaging分页加载库使用实践》AndroidPaging库是Jetpack组件的一部分,它提供了一套完整的解决方案来处理大型数据集的分页加载,本文将深入探讨Paging库... 目录前言一、Paging 库概述二、Paging 3 核心组件1. PagingSource2. Pager3.

Python进行JSON和Excel文件转换处理指南

《Python进行JSON和Excel文件转换处理指南》在数据交换与系统集成中,JSON与Excel是两种极为常见的数据格式,本文将介绍如何使用Python实现将JSON转换为格式化的Excel文件,... 目录将 jsON 导入为格式化 Excel将 Excel 导出为结构化 JSON处理嵌套 JSON:

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

C++11右值引用与Lambda表达式的使用

《C++11右值引用与Lambda表达式的使用》C++11引入右值引用,实现移动语义提升性能,支持资源转移与完美转发;同时引入Lambda表达式,简化匿名函数定义,通过捕获列表和参数列表灵活处理变量... 目录C++11新特性右值引用和移动语义左值 / 右值常见的左值和右值移动语义移动构造函数移动复制运算符