超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源

2024-03-22 06:12

本文主要是介绍超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随着AI从有限数据迈向真实世界,极速增长的数据规模不仅赋予了模型令人惊喜的能力,也给多模态模型提供了更多的可能性。OpenAI在发布GPT-4V时就已经明确表示:

将额外模态(如图像输入)融入大语言模型(LLMs)被认为是 AI 研究和发展的一个关键新领域。

昨天,HyperGAI 研究团队推出了 HPT(Hyper-Pretrained Transformers)系列,包含两个模型,HPT Air 和 HPT Pro。

其中HPT Pro 在部分基准测试中已经超越了 GPT-4V 和 Gemini Pro 的表现。同时,高效的版本 HPT Air 也相当强大,在同等小规模的模型中效果达到了最优,且已经开源。

分享几个自用的Claude 3和GPT-4的镜像站给大家吧,均为国内可用:


hujiaoai.cn(最牛的Claude 3 Opus,注册即用,测评下来完全吊打了GPT4)

higpt4.cn(稳定使用一年的chatgpt-4研究测试站,非商业目的,而且用的是最牛的128k窗口的版本)

图片

图1.HPT(Hyper-Pretrained Transformers)模型结构的介绍。

项目地址:

Github: https://github.com/hyperGAI/HPT

huggingface: https://huggingface.co/HyperGAI/HPT

过去模型只处理单一类型的数据,如文本、图像或者音频,往往单一模态下优化的模型的能力要强于多模态的模型。

去年,许多研究团队推出了自己的多模态大模型,比如DeepMind的Flamingo、Salesforce的Blip、Google的PaLM-E和Gemini等。从输入输出看,多模态可以简单分为模态转换、输入多模态、输出多模态,输入输出多模态。

HyperGAI 研究团队提出了一种名为“Hyper-Pretrained Transformers”(HPT)的新型多模态LLM预训练框架,可以理解多种输入模态。

HPT介绍

HPT的主要部件,如大语言模型和视觉编码器都可以使用开源的预训练模型,而HPT中连接视觉和语言模态的桥梁,称之为H-former,它将视觉数据转换为语言标记。

为了使语言模型能够充分理解视觉信息,H-Former 采用双网络设计,学习视觉—语言对齐的本地特征和全局特征,使 HPT 能够理解细粒度细节和抽象的高层信息。

如下图所示,H-former将图像转换成视觉嵌入,该嵌入具备与文本对齐的信息,可以直接作为视觉嵌入与文本嵌入一齐送入语言模型,如Yi-6B。

图片

图2.H-former在传统的视觉编码器之后对视觉嵌入进行重新表示,生成的视觉嵌入可与文本嵌入组合送入预训练语言模型。

图片

图3. 破案了,其实H-former就是Q-former,或者说是基于Q-former,其全局与局部的视觉—语言对齐应该是体现在对q_feat的处理上。

在原则上,HPT 可以从头开始训练,也可以利用现有的预训练视觉和语言模型。对于开源的 HPT Air 模型,作者利用了一个预训练的语言模型(Yi-6B)和视觉编码器(clip-vit-large-patch14-336),在只有大约 160 万个文本—图像样本的多模态训练数据集上进一步训练,其中文本仅使用英文数据。

实验结果

作者在多个具有挑战性的多模态基准上进行了实验,包括 MMMU、CMMMU、SEED(img)、MMBench 和 MMBench-CN。

这些基准涵盖了各种图像类别,包括图表、图解、肖像和照片,需要对大学水平的学科知识和多学科领域的推理(MMMU 和 CMMMU),或者对各种视觉和语言任务中的常识和空间理解(SEED(img)、MMBench 和 MMBench-CN)。

在许多情况下,HPT Pro 和 HPT Air 在多项基准测试中表现出色,优于 GPT-4V、Gemini Pro 和 Qwen-VL 等。例如,在 SEED(img)基准测试中,HPT Pro 在所有对比的方法里取得了最佳结果(73.1%),而 HPT Air 在性能上超过了 Qwen-VL-Chat(69.7% 比 65.4%),甚至接近 Gemini Pro 的性能水平(69.7% 比 70.7%)。

在 MMBench 和 MMBench-CN 基准测试中也可以观察到类似的结论,唯一的例外是 LLaVA-NeXT 在 SEED(img)基准测试上优于 HPT Air。

图片

对于需要大学级学科知识和深思熟虑的 MMMU 和 CMMMU 基准测试,HPT Pro 和 HPT Air 分别是同类尺寸模型中最好的。截止至2024年3月21日,MMMU官网的验证集leaderboard如下:

图片

据作者介绍,HPT 模型仅基于英语多模态数据进行训练,但在 Bench-CN 和 CMMMU 基准测试上的竞争表明,HPT 模型可以很好地泛到其他语言,比如中文。综合来看,HPT模型在多模态基准测试中的成绩还是非常出色的。

HPT示例效果

在一系列实际的定性示例中,展示了 HPT 的多模态能力,包括理解、推理、艺术表达等方面的能力。以下的示例均来自官方博客:

  1. 查看、描述并遵循指令 HPT可以理解和表达视觉图像的内容。尽管示例 1.1 和 1.2 中的图像具有非常规性质,但 HPT 准确地辨别了主要主题并阐明了其特征。值得注意的是,示例 1.1 与图 1 中的示例相似。HPT 可以根据用户偏好定制其描述的详细程度,在提示关键字“简短答案”时提供简洁的响应。此功能可确保 HPT 可以按照说明满足用户的需求。

图片

图片

  1. 解释和推理。HPT 可以解释图表、图表,并回答基于所提供数据的科学问题。例如,在示例 2.1 中,HPT 演示了其识别与图表数据相对应的数字序列(76、_、68、67、58)的能力,能够通过图表分析推断出缺失的数字。在示例 2.2 中,HPT 可以回答大学水平的问题并提供正确的解释。这些例子说明了HPT从视觉数据中提取和应用信息以解决复杂问题。

图片

图片

  1. 了解概念艺术。HPT还擅长把握艺术表现形式,准确诠释例3.1中传达的情感,并在例3.2中认识到鱼尾狮作为新加坡象征的文化意义。这种能力证明了HPT在分析和理解艺术品中复杂的视觉和概念线索方面的熟练程度。

图片

图片

  1. 创意。 HPT不仅理解力强,而且创造力强。如例 4.1 所示,它不仅了解在爱因斯坦时代不存在智能手机,而且还可以创造性地推测他获得现代技术的可能性。此外,HPT准确地解释了代词的引用,如第二个问题所示,它正确地将“他”识别为阿尔伯特·爱因斯坦并做出适当的回应。这凸显了HPT细致入微的理解和富有想象力的推理。HPT 还可以根据提供的图像编写有趣的小说故事,如示例 4.2 所示。

图片

图片

  1. 推荐和协助。HPT还可以提供有用的建议。尽管示例 5.1 中的视觉外观很棘手,但它理解图像内容,推荐可以使用此类食材烹制的菜肴,以及享用此类餐点的地方。同样,根据用户的图像,HPT 可以帮助规划下一艘游轮并提供缓解晕船的建议(示例 5.2)。这展示了HPT提供可操作的见解和有用建议以增强用户体验的能力。

图片

图片

 

这篇关于超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/834689

相关文章

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Java SWT库详解与安装指南(最新推荐)

《JavaSWT库详解与安装指南(最新推荐)》:本文主要介绍JavaSWT库详解与安装指南,在本章中,我们介绍了如何下载、安装SWTJAR包,并详述了在Eclipse以及命令行环境中配置Java... 目录1. Java SWT类库概述2. SWT与AWT和Swing的区别2.1 历史背景与设计理念2.1.

Java日期类详解(最新推荐)

《Java日期类详解(最新推荐)》早期版本主要使用java.util.Date、java.util.Calendar等类,Java8及以后引入了新的日期和时间API(JSR310),包含在ja... 目录旧的日期时间API新的日期时间 API(Java 8+)获取时间戳时间计算与其他日期时间类型的转换Dur

MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)

《MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)》掌握多表联查(INNERJOIN,LEFTJOIN,RIGHTJOIN,FULLJOIN)和子查询(标量、列、行、表子查询、相关/非相关、... 目录第一部分:多表联查 (JOIN Operations)1. 连接的类型 (JOIN Types)

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

MySQL 存储引擎 MyISAM详解(最新推荐)

《MySQL存储引擎MyISAM详解(最新推荐)》使用MyISAM存储引擎的表占用空间很小,但是由于使用表级锁定,所以限制了读/写操作的性能,通常用于中小型的Web应用和数据仓库配置中的只读或主要... 目录mysql 5.5 之前默认的存储引擎️‍一、MyISAM 存储引擎的特性️‍二、MyISAM 的主

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

Python多进程、多线程、协程典型示例解析(最新推荐)

《Python多进程、多线程、协程典型示例解析(最新推荐)》:本文主要介绍Python多进程、多线程、协程典型示例解析(最新推荐),本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定... 目录一、multiprocessing(多进程)1. 模块简介2. 案例详解:并行计算平方和3. 实现逻

macOS Sequoia 15.5 发布: 改进邮件和屏幕使用时间功能

《macOSSequoia15.5发布:改进邮件和屏幕使用时间功能》经过常规Beta测试后,新的macOSSequoia15.5现已公开发布,但重要的新功能将被保留到WWDC和... MACOS Sequoia 15.5 正式发布!本次更新为 Mac 用户带来了一系列功能强化、错误修复和安全性提升,进一步增

Spring Boot集成SLF4j从基础到高级实践(最新推荐)

《SpringBoot集成SLF4j从基础到高级实践(最新推荐)》SLF4j(SimpleLoggingFacadeforJava)是一个日志门面(Facade),不是具体的日志实现,这篇文章主要介... 目录一、日志框架概述与SLF4j简介1.1 为什么需要日志框架1.2 主流日志框架对比1.3 SLF4