GPT-4o vs. GPT-4 vs. Gemini 1.5 性能评测，谁更胜一筹！

2024-06-02 03:52

文章标签 性能评测 vs gpt 1.5 更胜一筹 gemini 4o

本文主要是介绍GPT-4o vs. GPT-4 vs. Gemini 1.5 性能评测，谁更胜一筹！，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

OpenAI 最近推出了 GPT-4o，OpenAI有一次火爆了，其图像、音频、视频的处理能力非常强。

最令人印象深刻的是，它支持用户与 ChatGPT 实时互动，并且能够处理对话中断。

而且，OpenAI 免费开放了 GPT-4o API 的访问权限。

在本文中，我将分析比较 GPT-4o、GPT 4 和谷歌的 Gemini 和 Unicorn 模型在英文数据集上的分类能力。看看这些模型中哪个最强？

GPT-4o 的新特性是什么？

GPT-4o最大特性是能更好地无缝理解和处理文本、音频和视频。

OpenAI 的重点似乎转向了将 GPT-4 级别的智能开放给大众，使即使是免费用户也能访问 GPT-4 级别的AI大模型。

OpenAI 还宣布 GPT-4o 在超过 50 种语言上都提高了质量和速度，承诺提供更具包容性和全球可访问性的 AI 体验，而且价格更便宜。

他们还提到，付费用户将获得比非付费用户多五倍的容量。

此外，他们发布了 ChatGPT 的桌面版本，以便为用户提供跨音频、视觉和文本接口的实时推理。

如何使用 GPT-4o API？

新的 GPT-4o 模型遵循 OpenAI 现有的聊天完成 API，使其向后兼容且易于使用。

from openai import OpenAIOPENAI_API_KEY = "<your-api-key>"def openai_chat_resolve(response: dict, strip_tokens = None) -> str:if strip_tokens is None:strip_tokens = []if response and response.choices and len(response.choices) > 0:content = response.choices[0].message.content.strip()if content is not None or content != '':if strip_tokens:for token in strip_tokens:content = content.replace(token, '')return contentraise Exception(f'Cannot resolve response: {response}')def openai_chat_request(prompt: str, model_name: str, temperature=0.0):message = {'role': 'user', 'content': prompt}client = OpenAI(api_key=OPENAI_API_KEY)return client.chat.completions.create(model=model_name,messages=[message],temperature=temperature,)response = openai_chat_request(prompt="Hello!", model_name="gpt-4o-2024-05-13")
answer = openai_chat_resolve(response)
print(answer)

GPT-4o 也可以通过 ChatGPT 界面使用：

OpenAI官方评估

OpenAI 官网发布了各种主流大模型，针对已知数据集（如 MMLU 和 HumanEval）的评估分数。

从图表中可以看出，GPT-4o 的性能是这一领域的最先进水平 —— 考虑到这个新模型更便宜、更快，这看起来已经很牛了。

然而，在过去的一年里，我见过多个声称在已知数据集上具有最先进语言性能的模型。

实际上，其中一些模型部分训练（或过度拟合）在这些开放数据集上，导致在排行榜上的分数不切实际。

因此，使用不太知名的数据集独立分析这些模型的性能非常重要 —— 比如我创建的这个 😄

我的评估数据集

我新建了一个主题数据集，我们可以用它来衡量不同大型语言模型(LLMs)的分类性能。

数据集包含 200 个句子，分为 50 个主题，其中一些主题密切相关，旨在使分类任务更具挑战性。

我手动创建并标记了整个数据集的英文版本。

然后我使用 GPT4 (gpt-4–0613) 将数据集翻译成多种语言。

然而，在这次评估中，我们只会评估数据集的英文版本 —— 这意味着结果不应受到使用相同语言模型进行数据集创建和主题预测可能带来的偏见的影响。

测试性能结果

这次我评估了以下模型：

GPT-4o: gpt-4o-2024-05-13
GPT-4: gpt-4-0613
GPT-4-Turbo: gpt-4-turbo-2024-04-09
Gemini 1.5 Pro: gemini-1.5-pro-preview-0409
Gemini 1.0: gemini-1.0-pro-002
Palm 2 Unicorn: text-unicorn@001

给到语言模型的任务是将数据集中的每个句子与正确的主题匹配。

这使我们能够计算每种语言和每个模型的准确率以及错误率。

由于模型大多数情况下都能正确分类，我正在为每个模型绘制错误率。

记住，错误率越低表示模型性能越好。

从图表中我们可以得出，GPT-4o 在所有模型中错误率最低，只有 2 个错误。

我们还可以看到，Palm 2 Unicorn、GPT-4 和 Gemini 1.5 与 GPT-4o 非常接近 —— 展示了它们强大的性能。

有趣的是，GPT-4 Turbo 的性能与 GPT-4–0613 类似。

最后，Gemini 1.0 落后了，这是意料之中的。

多语言

比较 gpt4o 与其他大型语言模型（如 Claude Opus 和 Gemini 1.5）的多语言能力。

gpt-4o-2024-05-13在多语言的处理能力最强，gpt-4-0613垫底。

结论

通过使用独特制作的英文数据集进行的这项分析，揭示了这些先进语言模型的最先进能力。

GPT-4o，OpenAI 的最新产品，在测试模型中错误率最低，这证实了 OpenAI 关于其性能的声明。

AI 社区和用户都必须继续使用不同的数据集进行独立评估，因为这些有助于提供比单一标准化基准测试所建议的更清晰的模型实际效果。

请注意，数据集相当小，结果可能会根据数据集的不同而变化。

来自：medium Lars Wiik

这篇关于GPT-4o vs. GPT-4 vs. Gemini 1.5 性能评测，谁更胜一筹！的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1022958。 23002807@qq.com

相关文章

Docker多阶段镜像构建与缓存利用性能优化实践指南

Docker多阶段镜像构建与缓存利用性能优化实践指南

《Docker多阶段镜像构建与缓存利用性能优化实践指南》这篇文章将从原理层面深入解析Docker多阶段构建与缓存机制,结合实际项目示例,说明如何有效利用构建缓存,组织镜像层次,最大化提升构建速度并减少... 目录一、技术背景与应用场景二、核心原理深入分析三、关键 dockerfile 解读3.1 Docke

阅读更多...

从原理到实战解析Java Stream 的并行流性能优化

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化：从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度：打破默认阈值2. 避免装箱

阅读更多...

深度剖析SpringBoot日志性能提升的原因与解决

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章：日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

阅读更多...

Java慢查询排查与性能调优完整实战指南

Java慢查询排查与性能调优完整实战指南

《Java慢查询排查与性能调优完整实战指南》Java调优是一个广泛的话题,它涵盖了代码优化、内存管理、并发处理等多个方面,：本文主要介绍Java慢查询排查与性能调优的相关资料,文中通过代码介绍的非... 目录1. 事故全景：从告警到定位1.1 事故时间线1.2 关键指标异常1.3 排查工具链2. 深度剖析：

阅读更多...

深入解析Java NIO在高并发场景下的性能优化实践指南

深入解析Java NIO在高并发场景下的性能优化实践指南

《深入解析JavaNIO在高并发场景下的性能优化实践指南》随着互联网业务不断演进,对高并发、低延时网络服务的需求日益增长,本文将深入解析JavaNIO在高并发场景下的性能优化方法,希望对大家有所帮助... 目录简介一、技术背景与应用场景二、核心原理深入分析2.1 Selector多路复用2.2 Buffer

阅读更多...

基于Python Playwright进行前端性能测试的脚本实现

基于Python Playwright进行前端性能测试的脚本实现

《基于PythonPlaywright进行前端性能测试的脚本实现》在当今Web应用开发中,性能优化是提升用户体验的关键因素之一,本文将介绍如何使用Playwright构建一个自动化性能测试工具,希望... 目录引言工具概述整体架构核心实现解析1. 浏览器初始化2. 性能数据收集3. 资源分析4. 关键性能指

阅读更多...

升级至三频BE12000! 华硕ROG魔盒Pro路由器首发拆解评测

升级至三频BE12000! 华硕ROG魔盒Pro路由器首发拆解评测

《升级至三频BE12000!华硕ROG魔盒Pro路由器首发拆解评测》华硕前两天推出新一代电竞无线路由器——ROG魔盒Pro（StrixGR7Pro），该产品在无线规格、硬件配置及功能设计上实现全... 作为路由器行业的T1梯队厂商，华硕近期发布了新旗舰华硕ROG魔盒Pro，除了保留DIY属性以外，高达120

阅读更多...

Zabbix在MySQL性能监控方面的运用及最佳实践记录

Zabbix在MySQL性能监控方面的运用及最佳实践记录

《Zabbix在MySQL性能监控方面的运用及最佳实践记录》Zabbix通过自定义脚本和内置模板监控MySQL核心指标（连接、查询、资源、复制）,支持自动发现多实例及告警通知,结合可视化仪表盘,可有效... 目录一、核心监控指标及配置1. 关键监控指标示例2. 配置方法二、自动发现与多实例管理1. 实践步骤

阅读更多...

MySQL深分页进行性能优化的常见方法

MySQL深分页进行性能优化的常见方法

《MySQL深分页进行性能优化的常见方法》在Web应用中,分页查询是数据库操作中的常见需求,然而,在面对大型数据集时,深分页（deeppagination）却成为了性能优化的一个挑战,在本文中,我们将... 目录引言：深分页，真的只是“翻页慢”那么简单吗？一、背景介绍二、深分页的性能问题三、业务场景分析四、

阅读更多...

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法：多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

阅读更多...