GPT-4o vs. GPT-4 vs. Gemini 1.5 性能评测,谁更胜一筹!

2024-06-02 03:52

本文主要是介绍GPT-4o vs. GPT-4 vs. Gemini 1.5 性能评测,谁更胜一筹!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

OpenAI 最近推出了 GPT-4o,OpenAI有一次火爆了,其图像、音频、视频的处理能力非常强。

最令人印象深刻的是,它支持用户与 ChatGPT 实时互动,并且能够处理对话中断。

而且,OpenAI 免费开放了 GPT-4o API 的访问权限。

在本文中,我将分析比较 GPT-4o、GPT 4 和谷歌的 Gemini 和 Unicorn 模型在英文数据集上的分类能力。看看这些模型中哪个最强?

GPT-4o 的新特性是什么?

GPT-4o最大特性是能更好地无缝理解和处理文本、音频和视频。

OpenAI 的重点似乎转向了将 GPT-4 级别的智能开放给大众,使即使是免费用户也能访问 GPT-4 级别的AI大模型。

OpenAI 还宣布 GPT-4o 在超过 50 种语言上都提高了质量和速度,承诺提供更具包容性和全球可访问性的 AI 体验,而且价格更便宜。

他们还提到,付费用户将获得比非付费用户多五倍的容量。

此外,他们发布了 ChatGPT 的桌面版本,以便为用户提供跨音频、视觉和文本接口的实时推理。

如何使用 GPT-4o API?

新的 GPT-4o 模型遵循 OpenAI 现有的聊天完成 API,使其向后兼容且易于使用。

from openai import OpenAIOPENAI_API_KEY = "<your-api-key>"def openai_chat_resolve(response: dict, strip_tokens = None) -> str:if strip_tokens is None:strip_tokens = []if response and response.choices and len(response.choices) > 0:content = response.choices[0].message.content.strip()if content is not None or content != '':if strip_tokens:for token in strip_tokens:content = content.replace(token, '')return contentraise Exception(f'Cannot resolve response: {response}')def openai_chat_request(prompt: str, model_name: str, temperature=0.0):message = {'role': 'user', 'content': prompt}client = OpenAI(api_key=OPENAI_API_KEY)return client.chat.completions.create(model=model_name,messages=[message],temperature=temperature,)response = openai_chat_request(prompt="Hello!", model_name="gpt-4o-2024-05-13")
answer = openai_chat_resolve(response)
print(answer)

GPT-4o 也可以通过 ChatGPT 界面使用:

OpenAI官方评估

OpenAI 官网发布了各种主流大模型,针对已知数据集(如 MMLU 和 HumanEval)的评估分数。


从图表中可以看出,GPT-4o 的性能是这一领域的最先进水平 —— 考虑到这个新模型更便宜、更快,这看起来已经很牛了。

然而,在过去的一年里,我见过多个声称在已知数据集上具有最先进语言性能的模型。

实际上,其中一些模型部分训练(或过度拟合)在这些开放数据集上,导致在排行榜上的分数不切实际。

因此,使用不太知名的数据集独立分析这些模型的性能非常重要 —— 比如我创建的这个 😄

我的评估数据集

我新建了一个主题数据集,我们可以用它来衡量不同大型语言模型(LLMs)的分类性能。

数据集包含 200 个句子,分为 50 个主题,其中一些主题密切相关,旨在使分类任务更具挑战性。

我手动创建并标记了整个数据集的英文版本。

然后我使用 GPT4 (gpt-4–0613) 将数据集翻译成多种语言。

然而,在这次评估中,我们只会评估数据集的英文版本 —— 这意味着结果不应受到使用相同语言模型进行数据集创建和主题预测可能带来的偏见的影响。

测试性能结果

这次我评估了以下模型:

  • GPT-4o: gpt-4o-2024-05-13
  • GPT-4: gpt-4-0613
  • GPT-4-Turbo: gpt-4-turbo-2024-04-09
  • Gemini 1.5 Pro: gemini-1.5-pro-preview-0409
  • Gemini 1.0: gemini-1.0-pro-002
  • Palm 2 Unicorn: text-unicorn@001

给到语言模型的任务是将数据集中的每个句子与正确的主题匹配。

这使我们能够计算每种语言和每个模型的准确率以及错误率。

由于模型大多数情况下都能正确分类,我正在为每个模型绘制错误率。

记住,错误率越低表示模型性能越好。


从图表中我们可以得出,GPT-4o 在所有模型中错误率最低,只有 2 个错误。

我们还可以看到,Palm 2 Unicorn、GPT-4 和 Gemini 1.5 与 GPT-4o 非常接近 —— 展示了它们强大的性能。

有趣的是,GPT-4 Turbo 的性能与 GPT-4–0613 类似。

最后,Gemini 1.0 落后了,这是意料之中的。

多语言

比较 gpt4o 与其他大型语言模型(如 Claude Opus 和 Gemini 1.5)的多语言能力。


gpt-4o-2024-05-13在多语言的处理能力最强,gpt-4-0613垫底。

结论

通过使用独特制作的英文数据集进行的这项分析,揭示了这些先进语言模型的最先进能力。

GPT-4o,OpenAI 的最新产品,在测试模型中错误率最低,这证实了 OpenAI 关于其性能的声明。

AI 社区和用户都必须继续使用不同的数据集进行独立评估,因为这些有助于提供比单一标准化基准测试所建议的更清晰的模型实际效果。

请注意,数据集相当小,结果可能会根据数据集的不同而变化。

来自:medium Lars Wiik

这篇关于GPT-4o vs. GPT-4 vs. Gemini 1.5 性能评测,谁更胜一筹!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1022958

相关文章

升级至三频BE12000! 华硕ROG魔盒Pro路由器首发拆解评测

《升级至三频BE12000!华硕ROG魔盒Pro路由器首发拆解评测》华硕前两天推出新一代电竞无线路由器——ROG魔盒Pro(StrixGR7Pro),该产品在无线规格、硬件配置及功能设计上实现全... 作为路由器行业的T1梯队厂商,华硕近期发布了新旗舰华硕ROG魔盒Pro,除了保留DIY属性以外,高达120

Zabbix在MySQL性能监控方面的运用及最佳实践记录

《Zabbix在MySQL性能监控方面的运用及最佳实践记录》Zabbix通过自定义脚本和内置模板监控MySQL核心指标(连接、查询、资源、复制),支持自动发现多实例及告警通知,结合可视化仪表盘,可有效... 目录一、核心监控指标及配置1. 关键监控指标示例2. 配置方法二、自动发现与多实例管理1. 实践步骤

MySQL深分页进行性能优化的常见方法

《MySQL深分页进行性能优化的常见方法》在Web应用中,分页查询是数据库操作中的常见需求,然而,在面对大型数据集时,深分页(deeppagination)却成为了性能优化的一个挑战,在本文中,我们将... 目录引言:深分页,真的只是“翻页慢”那么简单吗?一、背景介绍二、深分页的性能问题三、业务场景分析四、

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Linux系统性能检测命令详解

《Linux系统性能检测命令详解》本文介绍了Linux系统常用的监控命令(如top、vmstat、iostat、htop等)及其参数功能,涵盖进程状态、内存使用、磁盘I/O、系统负载等多维度资源监控,... 目录toppsuptimevmstatIOStatiotopslabtophtopdstatnmon

VS配置好Qt环境之后但无法打开ui界面的问题解决

《VS配置好Qt环境之后但无法打开ui界面的问题解决》本文主要介绍了VS配置好Qt环境之后但无法打开ui界面的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 目UKeLvb录找到Qt安装目录中designer.UKeLvBexe的路径找到vs中的解决方案资源

JVisualVM之Java性能监控与调优利器详解

《JVisualVM之Java性能监控与调优利器详解》本文将详细介绍JVisualVM的使用方法,并结合实际案例展示如何利用它进行性能调优,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1. JVisualVM简介2. JVisualVM的安装与启动2.1 启动JVisualVM2

Java使用MethodHandle来替代反射,提高性能问题

《Java使用MethodHandle来替代反射,提高性能问题》:本文主要介绍Java使用MethodHandle来替代反射,提高性能问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录一、认识MethodHandle1、简介2、使用方式3、与反射的区别二、示例1、基本使用2、(重要)

自研四振子全向增益天线! 中兴问天BE6800Pro+路由器拆机和详细评测

《自研四振子全向增益天线!中兴问天BE6800Pro+路由器拆机和详细评测》中兴问天BE6800Pro+路由器已经上市,新品配备自研四振子全向增益天线,售价399元,国补到手339.15元,下面我们... 中兴问天BE6800Pro+路由器自上市以来,凭借其“旗舰性能,中端价格”的定位,以及搭载三颗自研芯片

PyTorch高级特性与性能优化方式

《PyTorch高级特性与性能优化方式》:本文主要介绍PyTorch高级特性与性能优化方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、自动化机制1.自动微分机制2.动态计算图二、性能优化1.内存管理2.GPU加速3.多GPU训练三、分布式训练1.分布式数据