LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略

2024-03-20 08:44

本文主要是介绍LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略

导读:马斯克旗下的xAI公司宣布开源名为Grok-1的混合专家模型,参数量达3140亿,为目前最大的开源大语言模型。xAI此举或将引领人工智能开源趋势,同时也将对不太Open的OpenAI等公司形成市场和技术竞争压力。
Grok-1的特点
>> 从头训练,未针对任何特定任务微调
>> 使用MoE模型,每个token上的平均激活权重为25%
>> 采用JAX库和Rust语言从零开始训练
>> 采用Apache许可证完全开源了模型权重和架构
评估结果:Grok-1在人工评估任务和标准机器学习基准上表现出色,超越其他同类模型。
下载方法:可以使用磁力链接或Torrent客户端下载权重文件,但需要6TB以上GPU内存运行示例代码。

目录

Grok-1的简介

1、模型详情

2、模型规格细节

Grok-1的安装

1、下载

(1)、下载仓库

(2)、下载模型权重

T1、可以使用种子客户端和以下磁铁链接下载权重:推荐

T2、直接使用HuggingFace:非常慢

2、运行测试代码

Grok-1的使用方法


Grok-1的简介

2024年3月17日(当地时间),马斯克的AI创企xAI重磅发布了Grok-1的基础模型权重和网络架构,这是一款大型语言模型。Grok-1是一个3140亿参数的专家混合模型,远超OpenAI GPT-3.5的1750亿。由xAI从头开始训练。这是Grok-1预训练阶段的原始基础模型检查点,该阶段于2023年10月结束。这意味着该模型没有针对任何特定应用进行微调,比如对话。

要开始使用该模型,请按照github.com/xai-org/grok上的说明操作。

官网:Open Release of Grok-1

GitHub地址:GitHub - xai-org/grok-1: Grok open release

1、模型详情

基于大量文本数据训练的基础模型,没有针对任何特定任务进行微调。
3140亿参数的专家混合模型,对于给定的标记,有25%的权重处于活动状态。
在2023年10月由xAI从头开始使用JAX和Rust的自定义训练堆栈进行训练。

封面图像是使用Midjourney生成的,基于Grok提出的以下提示:

A 3D illustration of a neural network, with transparent nodes and glowing connections, showcasing the varying weights as different thicknesses and colors of the connecting lines.

一个神经网络的3D插图,具有透明的节点和发光的连接,展示了连接线的不同粗细和颜色作为不同权重的变化。

2、模型规格细节

Grok-1当前设计具有以下规格:
参数:314B
架构:8个专家的混合(MoE)
专家利用率:每个标记使用2个专家
层:64
注意头:48个用于查询,8个用于键/值
嵌入大小:6,144
标记化:带有131,072个标记的SentencePiece分词器
附加功能:
旋转嵌入(RoPE)
支持激活分片和8位量化
最大序列长度(上下文):8,192个标记

Grok-1的安装

1、下载

(1)、下载仓库

这个存储库包含了加载和运行Grok-1开放权重模型的JAX示例代码。

确保下载检查点并将ckpt-0目录放置在checkpoints中 - 请参阅下载权重

地址:GitHub - xai-org/grok-1: Grok open release

(2)、下载模型权重

T1、可以使用种子客户端和以下磁铁链接下载权重:推荐
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

T2、直接使用HuggingFace:非常慢
git clone https://github.com/xai-org/grok-1.git && cd grok-1
pip install huggingface_hub[hf_transfer]
huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False

2、运行测试代码

安装依赖,并测试代码

pip install -r requirements.txt
python run.py

来测试代码。该脚本会加载检查点并从模型中对测试输入进行采样。

由于模型的体积很大(314B参数),测试模型需要具有足够GPU内存的计算机以运行示例代码。此存储库中MoE层的实现不高效。选择了这种实现以避免需要自定义内核来验证模型的正确性。

Grok-1的使用方法

更新中……

这篇关于LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/828900

相关文章

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

C++11右值引用与Lambda表达式的使用

《C++11右值引用与Lambda表达式的使用》C++11引入右值引用,实现移动语义提升性能,支持资源转移与完美转发;同时引入Lambda表达式,简化匿名函数定义,通过捕获列表和参数列表灵活处理变量... 目录C++11新特性右值引用和移动语义左值 / 右值常见的左值和右值移动语义移动构造函数移动复制运算符

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

C#中lock关键字的使用小结

《C#中lock关键字的使用小结》在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时,其他线程无法访问同一实例的该代码块,下面就来介绍一下lock关键字的使用... 目录使用方式工作原理注意事项示例代码为什么不能lock值类型在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时

MySQL 强制使用特定索引的操作

《MySQL强制使用特定索引的操作》MySQL可通过FORCEINDEX、USEINDEX等语法强制查询使用特定索引,但优化器可能不采纳,需结合EXPLAIN分析执行计划,避免性能下降,注意版本差异... 目录1. 使用FORCE INDEX语法2. 使用USE INDEX语法3. 使用IGNORE IND

C# $字符串插值的使用

《C#$字符串插值的使用》本文介绍了C#中的字符串插值功能,详细介绍了使用$符号的实现方式,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录$ 字符使用方式创建内插字符串包含不同的数据类型控制内插表达式的格式控制内插表达式的对齐方式内插表达式中使用转义序列内插表达式中使用

flask库中sessions.py的使用小结

《flask库中sessions.py的使用小结》在Flask中Session是一种用于在不同请求之间存储用户数据的机制,Session默认是基于客户端Cookie的,但数据会经过加密签名,防止篡改,... 目录1. Flask Session 的基本使用(1) 启用 Session(2) 存储和读取 Se

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原