开放Gemma而非“开源”,谷歌为何转变大模型竞争策略?

2024-02-23 08:44

本文主要是介绍开放Gemma而非“开源”,谷歌为何转变大模型竞争策略?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

开放Gemma而非“开源”,谷歌为何转变大模型竞争策略

        • 开放而非开源!!
        • 一、Gemma开源模型
        • 二、Gemma从今天开始在全球范围内提供。以下是关键的详细信息:
        • 三、为什么这样做?
        • 四、谷歌这一竞争策略如何?

2月21日晚,谷歌宣布新一代免费可商用大语言模型Gemma在全球开放使用。该模型被谷歌视为自身“最先进的开放模型”。

在这里插入图片描述

开放而非开源!!

         值得注意的是,谷歌强调Gemma为开放模型,而非“开源”,这意味着谷歌并不会分享Gemma的多项技术细节,包括Gemma的源代码、训练数据等。在应用上,谷歌称其使用条款允许所有组织负责任地进行商用和分发

一、Gemma开源模型

         Gemma是一系列轻量级、最先进的开放模型,采用了与创建Gemini模型相同的研究和技术。由Google DeepMind和Google的其他团队开发,Gemma受到Gemini的启发,其名称反映了拉丁文中的"gemma",意为“宝石”。除了发布模型权重之外,我们还提供工具,支持开发者创新、促进协作,并引导对Gemma模型的负责任使用。

         Gemma仅用于处理文本信息,其基础技术架构与谷歌最强AI模型Gemini一致,但参数规模较小,仅有20亿参数和70亿参数两个规模版本,且两种参数规模的Gemma模型都会有预训练和指令微调版本。

         Gemm较小的参数规模有助于Gemma实现更广泛部署。谷歌介绍称,Gemma支持主流AI框架,还可在笔记本电脑、台式机、物联网、移动设备和云端等环境上运行。

在这里插入图片描述

二、Gemma从今天开始在全球范围内提供。以下是关键的详细信息:
  • 1.我们发布了两种规模的模型权重:Gemma 2B和Gemma 7B。每个规模都有经过预训练和指导微调的变体。

  • 2.新的负责任生成式人工智能工具包提供了使用Gemma创建更安全人工智能应用程序的指导和必要工具。

  • 3.我们提供了适用于所有主要框架(JAX、PyTorch和TensorFlow通过本机Keras 3.0)的推理和监督微调(SFT)的工具链。

  • 3.与Ready-to-use Colab和Kaggle笔记本以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成相结合,使得使用Gemma变得非常容易入门。

  • 4.经过预训练和指导微调的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并可以轻松部署在Vertex AI和Google Kubernetes Engine(GKE)上。

  • 5.跨多个人工智能硬件平台的优化确保了行业领先的性能,包括NVIDIA GPU和Google Cloud TPU。

  • 6.使用条款允许各种规模的组织进行负责任的商业使用和分发。

三、为什么这样做?

         Gemm开放Gemma或是针对开源大模型领域所受批评的部分回应。此前谷歌和OpenAI因坚持技术封闭而遭到外界抨击,两者在最新、最先进的模型上都选择了闭源,被认为不利于技术进步。

         去年Google貌似已经下定决心要闭源了,这可能源于低估了追赶OpenAI的技术难度,Bard推出令人大失所望使得谷歌不得不面对现实,去年下半年进入很尴尬的局面,闭源要追上OpenAI估计还要不少时间,而开源方面Meta已下决心,还有Mistral这种新秀冒头,逐渐主导了开源市场,这导致无论开源闭源,谷歌都处于被两面夹击,进退为难的境地。很明显,Gemma代表谷歌大模型策略的转变:兼顾开源和闭源,开源主打性能最强大的小规模模型,希望脚踢Meta和Mistral;闭源主打规模大的效果最好的大模型,希望尽快追上OpenAI。目前大模型开源形成三巨头局面:Google Gemma、Meta LLama和欧洲的Mistral。

         目前大模型巨头混战,形成了打压链局面:OpenAI处于链条顶端,主要打压对手是有潜力追上它的竞争对手:谷歌和Anthropic,Mistral估计也正在被列入OpenAI的打压列表中。这个打压链条是这样的:OpenAI→Google &Anthropic & Mistral→ Meta→其它大模型公司

四、谷歌这一竞争策略如何?

         谷歌开源Gemma不是针对OpenAI 宣发策略的反击,Gemimi 系列的定位才是对标GPT 4的。Gemma是针对开源届的,也就是针对Meta和Mistral的,这侧面说明Meta的LLama 3很快就要发布了,或者Mistral最近会有新品发布。

         通过Gemma再次证明:

  • 只要数据量足够多(Gemma 7B用到了6万亿Token,效果和Mistral 7B 差不多,这也侧面说明了之前大家猜测Mistral 7B使用了大约7万亿Token的大概率属实)
  • 数据质量足够好(增加数学、代码、科学论文等增强模型推理能力的数据),小模型的能力仍然能够得到持续提升。

         关于大模型的开源和闭源,我认为如果想发展大模型还是得比模型规模,这方面开源模型相对闭源模型出于明显劣势,短期内难以追上GPT 4或GPT 4v,且这种类型的大模型,即使是开源也只能仰仗谷歌或者Meta这种财大气粗的大公司,主要是太消耗资源了,一般人玩不起,国内这方面阿里千问系列做得比较好,肯把比较大规模的模型开源出来,更提供了modelscope这样的平台促进技术交流,属实难得。

         另外,开源模型应该把主要精力放在开发并开源出性能足够强的小规模大模型上(SLLM,Small Large Language Model)。
         我觉得谷歌的开源策略是非常合理的。目前看,作出强大的SLLM并没有太多技巧,主要是把模型压小的基础上,大量增加训练数据的规模,数据质量方面则是增加数学、代码等数据来提升模型的推理能力,比如Gemma 7B用6万亿Token数据,Mistral 7B的7万亿Token数据,两者也应该大量采用了增强推理能力的训练数据,只要持续增加训练数据的规模和质量,模型效果会持续提升,所以SLLM模型的性能天花板目前也没有到头,只要有更多更高质量的数据,就能持续提升SLLM模型的效果,仍然有很大空间
         SLLM相对GPT 4这种追求最强效果的模型比,训练成本低得多,而因为模型规模小,推理成本也极低,只要持续优化效果,从应用层面,大家肯定会比较积极地部署SLLM用来实战的,市场潜力巨大。也就是说,SLLM应该是没有太多资源,但是还是有一些资源的大模型公司必争之地。

         因此,谷歌这一策略可能也预示着2024年在SLLM这方面关注度也比较高,我也相信2024年开源SLLM会有更惊艳黑马出场!!

这篇关于开放Gemma而非“开源”,谷歌为何转变大模型竞争策略?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/738076

相关文章

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略(Key Expir

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

利用Python实现时间序列动量策略

《利用Python实现时间序列动量策略》时间序列动量策略作为量化交易领域中最为持久且被深入研究的策略类型之一,其核心理念相对简明:对于显示上升趋势的资产建立多头头寸,对于呈现下降趋势的资产建立空头头寸... 目录引言传统策略面临的风险管理挑战波动率调整机制:实现风险标准化策略实施的技术细节波动率调整的战略价

Redis中6种缓存更新策略详解

《Redis中6种缓存更新策略详解》Redis作为一款高性能的内存数据库,已经成为缓存层的首选解决方案,然而,使用缓存时最大的挑战在于保证缓存数据与底层数据源的一致性,本文将介绍Redis中6种缓存更... 目录引言策略一:Cache-Aside(旁路缓存)策略工作原理代码示例优缺点分析适用场景策略二:Re

SpringBoot基于配置实现短信服务策略的动态切换

《SpringBoot基于配置实现短信服务策略的动态切换》这篇文章主要为大家详细介绍了SpringBoot在接入多个短信服务商(如阿里云、腾讯云、华为云)后,如何根据配置或环境切换使用不同的服务商,需... 目录目标功能示例配置(application.yml)配置类绑定短信发送策略接口示例:阿里云 & 腾

redis过期key的删除策略介绍

《redis过期key的删除策略介绍》:本文主要介绍redis过期key的删除策略,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录第一种策略:被动删除第二种策略:定期删除第三种策略:强制删除关于big key的清理UNLINK命令FLUSHALL/FLUSHDB命

SpringRetry重试机制之@Retryable注解与重试策略详解

《SpringRetry重试机制之@Retryable注解与重试策略详解》本文将详细介绍SpringRetry的重试机制,特别是@Retryable注解的使用及各种重试策略的配置,帮助开发者构建更加健... 目录引言一、SpringRetry基础知识二、启用SpringRetry三、@Retryable注解

MySQL 分区与分库分表策略应用小结

《MySQL分区与分库分表策略应用小结》在大数据量、复杂查询和高并发的应用场景下,单一数据库往往难以满足性能和扩展性的要求,本文将详细介绍这两种策略的基本概念、实现方法及优缺点,并通过实际案例展示如... 目录mysql 分区与分库分表策略1. 数据库水平拆分的背景2. MySQL 分区策略2.1 分区概念

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA