杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能

2024-05-14 07:12

本文主要是介绍杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本周的 AI 圈注定热闹非凡。

当地时间 5 月 13 日,OpenAI 将直播发布 ChatGPT 与 GPT-4 的更新。次日,Google I/O 如约而至。不同于 I/O 大会是谷歌的年度盛会,OpenAI 此次的临时发布颇有点抢热度的意思。这对纠缠已久的「老对头」此次又会如何出招呢?我们不妨来一起回顾一下双方的渊源,并进行大胆猜想!

多轮对垒,激战正酣

自从 OpenAI 一鸣惊人后,谷歌便被贴上了「恨铁不成钢」、「起步慢」、「追赶」等标签。其中最值得探究的便是「AI 黄埔军校」这一称谓, 看似褒奖,实则是谷歌的「一把辛酸泪」。

众所周知,奠定 OpenAI 王座的 ChatGPT 是基于 Transformer 架构的,而 Transformer 正是由谷歌在「Attention Is All You Need」这篇论文中提出的里程碑式架构。 此外,ChatGPT 发布界面的致谢中也出现了多位前谷歌大佬的身影,随后更是有多位谷歌骨干员工跳槽至 OpenAI……更有意思的是,每当谷歌试图「绝地反击」时,总会伴随一些小插曲。

2023 年 2 月,为应对 ChatGPT 谷歌提出了 Bard, 但在发布后不就便被爆出,在演示时出现事实性错误——

在回答「关于詹姆斯·韦布空间望远镜 (JWST),我可以告诉我 9 岁孩子它有何新发现?」这一问题时,Bard 给出的一个答案是:第一张太阳系外行星的照片由 JWST 拍摄。但哈佛—史密森天体物理中心的研究人员格兰特·特朗布莱指出,是欧洲南方天文台的甚大望远镜 (VLT) 于 2004 年拍摄了第一张系外行星照片。

2023 年 5 月的 I/O 大会上,谷歌展示了 Bard 的产品升级, 例如支持更多语言、识别图像信息、接通谷歌应用程序以及部分外部应用等等。同时,谷歌还发布了 PaLM2,作为对标 GPT-4 的产品,其在数学、编码、推理、自然语言生成方面都有所提升。

谷歌健康研究团队还基于此创建了 Med-PaLM 2,具备检索医学知识、解码医学术语等功能。不出意外,模型上对标 GPT,应用上也要对标微软,谷歌将其 AI 能力整合到了文案写作、制作表格等办公场景中,推出了 Google Workspace。

随后,不少网友以各种形式将 PaLM 2 与 GPT-4 进行了对比,OpenAI 仍然领先的呼声更高。

2023 年 12 月,谷歌发布了其「规模最大、能力最强」的 AI 模型 Gemini, 演示效果的确惊艳,高配版本在性能上也能够与 GPT-4 一搏,但是却被爆出演示视频经后期处理,效果被部分夸大。

2024 年 2 月 8 日,谷歌宣布将 Bard 正式更名为 Gemini, 其最强模型 Gemini Ultra 加持的聊天机器人 Gemini Advanced 也正式开放,设定与 ChatGPT 相同的 20 美元为「月租」,颇有些打擂台的意思。这次发布更重要的意义是,将谷歌 AI 统一整合为 Gemini——既是模型名、也是产品名。

2024 年 2 月 16 日,自家最强的 Gemini 1.0 Ultra 发布没几天,谷歌便一鼓作气地推出了 Gemini 1.5。 其中,Gemini 1.5 Pro 最高可支持 100 万 token 超长上下文,在 token 数碾压 GPT-4,从而在音频、视频处理等任务上取得了优异的表现。如果没有 Sora,Gemini 1.5 恐怕会在很长一段时间内都是 AI 圈的热议话题。

就在 Gemini 1.5 发布后几个小时,OpenAI 便祭出了文生视频模型 Sora, 用前所未有的视频生成能力瞬间站到了舞台的最中央,长达 1 分钟的演示视频直接抢走了 Gemini 的话题度。

这一轮,从技术上无从对比,话题度上显然是胜负已分,OpenAI 也借助 Sora 进一步巩固了自己的地位。

OpenAI 又要截胡热度?

值得注意的是,5 月 1 日,X 网友 Jimmy Apples 爆料,OpenAI 的搜索引擎可能会在 5 月 9 日发布, 这位网友曾经准确预测了 GPT-4 的发布日期。随后,他又称发布日期推迟到了 5 月 13 日。

5 月 8 日,彭博社报道也称,OpenAI 内部正在开发全新的搜索引擎,通过生成式 AI 的问答方式带来全新搜索体验。彭博社表示该搜索引擎的特点之一,是可以用书面文字和图像来回答问题。彭博社报道称,OpenAI 的搜索产品是其旗舰产品 ChatGPT 的延伸,使 ChatGPT 能够从网络上直接获取信息,包括引文。在此前的报道中,The Verge 曾爆料,OpenAI 正在挖角谷歌搜索部门的工程师,推进其 AI 搜索产品的快速上线。

OpenAI 此番向本来已经格局稳定的搜索业务下手,有点「直捣黄龙」的意味?

不过,就在 5 月 11 日,OpenAI 官方发布推文称,13 日的发布会只会带来 ChatGPT 和 GPT-4 的更新,只字未提「搜索引擎」。但 5 月 13 日这个日期颇有意思,因为谷歌早已宣布将在 5 月 14 日召开 Google I/O 大会。

图片

随后,Sam Altman 直接明牌了——不是 GPT-5,不是搜索引擎, 但是我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说就像魔法一样。

图片

在 Sam Altman 去除了两个错误答案之后,网友们围绕「OpenAI 到底会发布什么」的大猜想仍然热情高涨,同时也有更多的蛛丝马迹被曝光,其中便包括了语音交互。

据 The Information 报道,OpenAI 已经向其用户展示了一个既能够交谈也能够识别物体的新模型,该模型能够提供更快、更准确的图像与音频理解。据 The Verge 报道,开发人员 Ananay Arora 称,ChatGPT 或将具备通话功能。Arora 还发现证据表明,OpenAI 提供了用于实时音频和视频通信的服务器。

图片

此外,Hallid 联合创始人 indigo 在其推特 (X) 账号上发布了更加详细的预测,不仅提到了 GPT-4.5,同样也预测了 OpenAI 的新 AI Assistant 助手将支持全语音交互。

图片

不过,从某种角度来看,Sam Altman 虽然否认了「搜索引擎」,但其并未表示不会给 ChatGPT 加点「搜索 buff」。 其实,最近一段时间里,网友已经扒出了大量证据——OpenAI 已经进军搜索领域了。

首先是前 Mila 研究员、麻省理工讲师 Lior S 爆料,OpenAI 最新的SSL证书日志显示,search.chatgpt.com 子域名已经创建。

图片

目前访问该域名显示 Not found,而非 404 或域名错误

国内有网友接到了灰度测试,「赛博禅心」在其公众号上发布了试用效果:

图片

图片

图源:赛博禅心

可以看到,ChatGPT 回答的还是很精准的,「赛博禅心」表示回答速度也还可以。然而,在实时信息的获取上,ChatGPT 则显现出了不足, 赛博禅心搜索比特币价格,并与谷歌搜索出的价格进行了比对:

图片
图片

图源:赛博禅心

此外,有网友直接在推特上发布了一段号称是 OpenAI 官方 AI 搜索页面的演示 demo,但与灰度测试的界面有很大不同:

图片

目前,OpenAI 的搜索产品最终是否会以灰度测试的形式与大家见面仍是未知数,整体来看,其所要面对的竞争者也不光是谷歌一家,还有 Perplexity AI。其实,从某种意义上讲,Perplexity AI 才是 OpenAI 在搜索业务上应该直接对标的产品。

如今,这个自诩为「世界上首个对话式搜索引擎」的 AI 工具风头正盛,获得了黄仁勋的力挺、贝佐斯等大佬的投资,其独特之处在于将 ChatGPT 式的问答和传统搜索引擎的链接列表相结合。

图片

OpenAI 将以何种形式参与到 AI 时代的搜索引擎市场竞争中呢?先期待一下 5 月13 日的发布会上是否会揭秘 ChatGPT 的搜索功能。

Google I/O 只能靠 Gemini 挑大梁了?

OpenAI 有心还是无意的发布会是否会爆出重大更新仍未可知,但是相信谷歌势必会准时观看这场直播,如果真的有惊喜,不知道劈柴哥是否能够快速应对,并在一天后的 Google I/O 大会上及时反击?

相较而言,一年一度的 Google I/O 大会则是缺乏了一些神秘感,在其官方页面上预告的会议重点是——移动、Web、ML/AI、云。

图片

按照惯例,公司 CEO Sundar Pichai 将在主题演讲中分享 Android 的更新、新一代硬件产品、谷歌在 AI 领域的最新进展与成果,以及其 AI 能力与谷歌全生态的融合。

Gemini 赋能谷歌全生态

毫无疑问,Gemini 肯定是今年 Google I/O 大会的重头戏。今年 2 月才更新的 Gemini 1.5 已经将上下文长度拉到了百万级,在性能上已经可以与 GPT-4 一战。所以,谷歌下一步则是需要考虑落地应用的问题了——如何将 Gemini 与其搜索、照片和视频工具、谷歌地图、以及 Gmail 和 Google Docs 等工作空间的工具整合到一起。

此外,谷歌也已经逐渐将其 AI 能力注入到了 Google Assistant 中,Gemini 的强大能力是否能够打造一个更加先进的、更像一个人类的自然语言语音助手呢?

值得注意的是,作为同时拥有先进大模型与硬件业务的企业,Gemini 与 谷歌自家的 Pixel 能碰撞出什么样的火花?去年便有消息称,名为 Pixie 的 AI 助手可能会在 Pixel 9 上亮相。

去年 Google I/O 大会上亮相的 Pixel 8 便已经搭载了谷歌的 AI 能力。其配备了 Google 自研芯片 Tensor G3 处理器,具备音频魔术橡皮擦、 Best Take、翻译并朗读网页等功能。例如,Best Take 功能可以将多张集体照片组合在一起,从不同的图片中选择不同人物的表情来创建完美合影。

按照惯例,今年的大会上将发布 Pixel 9,但目前的爆料中并未见其身影,反而是 Pixel 8a 呼声较高,至于 AI 助手 Pixie 是否亮相只得拭目以待。

此外,今年 4 月,外媒爆出苹果和谷歌正联手将 Gemini 整合到 iOS 系统中,两家公司都没有正式证实这一消息,如果消息属实,也算得上是两家在多业务上处于竞争关系的巨头,进行了一次「世纪大合作」。不知道劈柴哥会不会在 Google I/O 大会上宣布相关消息。

Android 和 AR/XR

作为谷歌的基石,Android 永远是 Google I/O 大会上不可或缺的内容。今年,Android 15 已经解开了神秘面纱,开发者预览版和最初的测试版已经发布,Pichai 势必会在演讲中进一步介绍系统的重磅更新。根据此前披露的信息来看,其还将介绍基于 Android Auto 实现的智能车载以及智能手表软件 Wear OS。

此外,有媒体爆出,Pichai 将会分享谷歌 AR 软件的消息,并介绍其为三星及其他头显厂商开发的 Android XR 平台。根据今年早些时间的报道,谷歌的这一轮裁员的重灾区是 AR 硬件团队,所以有媒体猜测,其已经放弃开发自己的 AR 硬件,而是完全致力于 OEM 合作模式,换言之,谷歌将专注于软件层面。

除了 劈柴哥的主题演讲外,今年的 Google I/O 大会还有多个主题论坛,例如 Google AI 的新动态、Android 的新动态、面向生成式 AI 时代的 ML 框架等等,但并未提供直播,将在演讲结束后放出相关视频素材,HyperAI超神经也将持续关注,并围绕 AI 带来深度报道,敬请期待~

写在最后

过去,工业是衡量国家实力的重要度量,如今,科技实力也跻身谈判桌,甚至成为了大国博弈的筹码。尤其是在大模型热度高居不下之际,硅谷巨头们的一举一动都备受关注。犹记得 2022 年末,OpenAI、微软、谷歌等总是突袭发布重磅更新,网友们直呼——一觉醒来,AI 圈又变天了?

进入 2024 年,战况仍在持续升温,从技术层面的竞速、到应用场景的开发,从老牌劲旅、到新晋独角兽,能够在风口持续霸榜的一定是有护城河的企业。至于在金字塔顶端的大佬们将如何斗法,让我们一起搬好小板凳,静观神仙打架!

参考资料:
1.https://36kr.com/p/2660898993824512
2.https://techcrunch.com/2024/05/09/google-i-o-2024-what-to-expect/
3.https://www.spiceworks.com/tech/tech-general/articles/google-io-2024-expectations

4.https://www.theverge.com/2024/5/11/24154307/openai-multimodal-digital-assistant-chatgpt-phone-calls

这篇关于杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/988099

相关文章

MySQL 8 中的一个强大功能 JSON_TABLE示例详解

《MySQL8中的一个强大功能JSON_TABLE示例详解》JSON_TABLE是MySQL8中引入的一个强大功能,它允许用户将JSON数据转换为关系表格式,从而可以更方便地在SQL查询中处理J... 目录基本语法示例示例查询解释应用场景不适用场景1. ‌jsON 数据结构过于复杂或动态变化‌2. ‌性能要

三频BE12000国补到手2549元! ROG 魔盒Pro WIFI7电竞AI路由器上架

《三频BE12000国补到手2549元!ROG魔盒ProWIFI7电竞AI路由器上架》近日,华硕带来了ROG魔盒ProWIFI7电竞AI路由器(ROGSTRIXGR7Pro),目前新... 华硕推出了ROG 魔盒Pro WIFI7电竞AI路由器(ROG STRIX GR7 Phttp://www.cppcn

Qt使用QSqlDatabase连接MySQL实现增删改查功能

《Qt使用QSqlDatabase连接MySQL实现增删改查功能》这篇文章主要为大家详细介绍了Qt如何使用QSqlDatabase连接MySQL实现增删改查功能,文中的示例代码讲解详细,感兴趣的小伙伴... 目录一、创建数据表二、连接mysql数据库三、封装成一个完整的轻量级 ORM 风格类3.1 表结构

mysql表操作与查询功能详解

《mysql表操作与查询功能详解》本文系统讲解MySQL表操作与查询,涵盖创建、修改、复制表语法,基本查询结构及WHERE、GROUPBY等子句,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随... 目录01.表的操作1.1表操作概览1.2创建表1.3修改表1.4复制表02.基本查询操作2.1 SE

Golang如何用gorm实现分页的功能

《Golang如何用gorm实现分页的功能》:本文主要介绍Golang如何用gorm实现分页的功能方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录背景go库下载初始化数据【1】建表【2】插入数据【3】查看数据4、代码示例【1】gorm结构体定义【2】分页结构体

Java Web实现类似Excel表格锁定功能实战教程

《JavaWeb实现类似Excel表格锁定功能实战教程》本文将详细介绍通过创建特定div元素并利用CSS布局和JavaScript事件监听来实现类似Excel的锁定行和列效果的方法,感兴趣的朋友跟随... 目录1. 模拟Excel表格锁定功能2. 创建3个div元素实现表格锁定2.1 div元素布局设计2.

HTML5实现的移动端购物车自动结算功能示例代码

《HTML5实现的移动端购物车自动结算功能示例代码》本文介绍HTML5实现移动端购物车自动结算,通过WebStorage、事件监听、DOM操作等技术,确保实时更新与数据同步,优化性能及无障碍性,提升用... 目录1. 移动端购物车自动结算概述2. 数据存储与状态保存机制2.1 浏览器端的数据存储方式2.1.

基于 HTML5 Canvas 实现图片旋转与下载功能(完整代码展示)

《基于HTML5Canvas实现图片旋转与下载功能(完整代码展示)》本文将深入剖析一段基于HTML5Canvas的代码,该代码实现了图片的旋转(90度和180度)以及旋转后图片的下载... 目录一、引言二、html 结构分析三、css 样式分析四、JavaScript 功能实现一、引言在 Web 开发中,

springboot下载接口限速功能实现

《springboot下载接口限速功能实现》通过Redis统计并发数动态调整每个用户带宽,核心逻辑为每秒读取并发送限定数据量,防止单用户占用过多资源,确保整体下载均衡且高效,本文给大家介绍spring... 目录 一、整体目标 二、涉及的主要类/方法✅ 三、核心流程图解(简化) 四、关键代码详解1️⃣ 设置

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中