LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略

2024-03-20 08:44

本文主要是介绍LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略

导读:马斯克旗下的xAI公司宣布开源名为Grok-1的混合专家模型,参数量达3140亿,为目前最大的开源大语言模型。xAI此举或将引领人工智能开源趋势,同时也将对不太Open的OpenAI等公司形成市场和技术竞争压力。
Grok-1的特点
>> 从头训练,未针对任何特定任务微调
>> 使用MoE模型,每个token上的平均激活权重为25%
>> 采用JAX库和Rust语言从零开始训练
>> 采用Apache许可证完全开源了模型权重和架构
评估结果:Grok-1在人工评估任务和标准机器学习基准上表现出色,超越其他同类模型。
下载方法:可以使用磁力链接或Torrent客户端下载权重文件,但需要6TB以上GPU内存运行示例代码。

目录

Grok-1的简介

1、模型详情

2、模型规格细节

Grok-1的安装

1、下载

(1)、下载仓库

(2)、下载模型权重

T1、可以使用种子客户端和以下磁铁链接下载权重:推荐

T2、直接使用HuggingFace:非常慢

2、运行测试代码

Grok-1的使用方法


Grok-1的简介

2024年3月17日(当地时间),马斯克的AI创企xAI重磅发布了Grok-1的基础模型权重和网络架构,这是一款大型语言模型。Grok-1是一个3140亿参数的专家混合模型,远超OpenAI GPT-3.5的1750亿。由xAI从头开始训练。这是Grok-1预训练阶段的原始基础模型检查点,该阶段于2023年10月结束。这意味着该模型没有针对任何特定应用进行微调,比如对话。

要开始使用该模型,请按照github.com/xai-org/grok上的说明操作。

官网:Open Release of Grok-1

GitHub地址:GitHub - xai-org/grok-1: Grok open release

1、模型详情

基于大量文本数据训练的基础模型,没有针对任何特定任务进行微调。
3140亿参数的专家混合模型,对于给定的标记,有25%的权重处于活动状态。
在2023年10月由xAI从头开始使用JAX和Rust的自定义训练堆栈进行训练。

封面图像是使用Midjourney生成的,基于Grok提出的以下提示:

A 3D illustration of a neural network, with transparent nodes and glowing connections, showcasing the varying weights as different thicknesses and colors of the connecting lines.

一个神经网络的3D插图,具有透明的节点和发光的连接,展示了连接线的不同粗细和颜色作为不同权重的变化。

2、模型规格细节

Grok-1当前设计具有以下规格:
参数:314B
架构:8个专家的混合(MoE)
专家利用率:每个标记使用2个专家
层:64
注意头:48个用于查询,8个用于键/值
嵌入大小:6,144
标记化:带有131,072个标记的SentencePiece分词器
附加功能:
旋转嵌入(RoPE)
支持激活分片和8位量化
最大序列长度(上下文):8,192个标记

Grok-1的安装

1、下载

(1)、下载仓库

这个存储库包含了加载和运行Grok-1开放权重模型的JAX示例代码。

确保下载检查点并将ckpt-0目录放置在checkpoints中 - 请参阅下载权重

地址:GitHub - xai-org/grok-1: Grok open release

(2)、下载模型权重

T1、可以使用种子客户端和以下磁铁链接下载权重:推荐
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

T2、直接使用HuggingFace:非常慢
git clone https://github.com/xai-org/grok-1.git && cd grok-1
pip install huggingface_hub[hf_transfer]
huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False

2、运行测试代码

安装依赖,并测试代码

pip install -r requirements.txt
python run.py

来测试代码。该脚本会加载检查点并从模型中对测试输入进行采样。

由于模型的体积很大(314B参数),测试模型需要具有足够GPU内存的计算机以运行示例代码。此存储库中MoE层的实现不高效。选择了这种实现以避免需要自定义内核来验证模型的正确性。

Grok-1的使用方法

更新中……

这篇关于LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/828900

相关文章

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

redis中使用lua脚本的原理与基本使用详解

《redis中使用lua脚本的原理与基本使用详解》在Redis中使用Lua脚本可以实现原子性操作、减少网络开销以及提高执行效率,下面小编就来和大家详细介绍一下在redis中使用lua脚本的原理... 目录Redis 执行 Lua 脚本的原理基本使用方法使用EVAL命令执行 Lua 脚本使用EVALSHA命令

Java 中的 @SneakyThrows 注解使用方法(简化异常处理的利与弊)

《Java中的@SneakyThrows注解使用方法(简化异常处理的利与弊)》为了简化异常处理,Lombok提供了一个强大的注解@SneakyThrows,本文将详细介绍@SneakyThro... 目录1. @SneakyThrows 简介 1.1 什么是 Lombok?2. @SneakyThrows

Win安装MySQL8全过程

《Win安装MySQL8全过程》:本文主要介绍Win安装MySQL8全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Win安装mysql81、下载MySQL2、解压文件3、新建文件夹data,用于保存数据库数据文件4、在mysql根目录下新建文件my.ini

判断PyTorch是GPU版还是CPU版的方法小结

《判断PyTorch是GPU版还是CPU版的方法小结》PyTorch作为当前最流行的深度学习框架之一,支持在CPU和GPU(NVIDIACUDA)上运行,所以对于深度学习开发者来说,正确识别PyTor... 目录前言为什么需要区分GPU和CPU版本?性能差异硬件要求如何检查PyTorch版本?方法1:使用命

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

使用Python和Pyecharts创建交互式地图

《使用Python和Pyecharts创建交互式地图》在数据可视化领域,创建交互式地图是一种强大的方式,可以使受众能够以引人入胜且信息丰富的方式探索地理数据,下面我们看看如何使用Python和Pyec... 目录简介Pyecharts 简介创建上海地图代码说明运行结果总结简介在数据可视化领域,创建交互式地

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Java中的工具类命名方法

《Java中的工具类命名方法》:本文主要介绍Java中的工具类究竟如何命名,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Java中的工具类究竟如何命名?先来几个例子几种命名方式的比较到底如何命名 ?总结Java中的工具类究竟如何命名?先来几个例子JD