Pytorch如何获取BERT模型最后一层隐藏状态的CLS的embedding?

2024-08-21 16:12

本文主要是介绍Pytorch如何获取BERT模型最后一层隐藏状态的CLS的embedding?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

遇到问题

BERT模型中最后一层的句子的CLS的embedding怎么获取?
来源于阅读 An Interpretability Illusion for BERT这篇论文

We began by creating embeddings for the 624,712 sentences
in our four datasets. To do this, we used the BERT-base
uncased model from the HuggingFace Transformers library
with no fine tuning or dataset specific modifications. We
used the final layer hidden state of each sentence’s [CLS]
token as its embedding.这最后一句话用代码实现

解决方法

经询问GPT4o,获得的答案如下:

你想要使用 BERT 模型的最后一层隐藏状态作为句子的嵌入(embedding),可以通过以下代码来实现。这段代码使用 transformers 库中的 BERT 模型来处理句子,并提取 [CLS] token 的嵌入。

from transformers import BertTokenizer, BertModel
import torch# 加载预训练的 BERT 模型和 tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')# 将模型设置为评估模式
model.eval()# 输入的句子
sentence = "This is an example sentence."# 对输入的句子进行编码
inputs = tokenizer(sentence, return_tensors='pt')# 获取模型的输出
with torch.no_grad():outputs = model(**inputs)# 获取最后一层的隐藏状态 (outputs.last_hidden_state)
last_hidden_state = outputs.last_hidden_state# 获取 [CLS] token 的嵌入 (最后一层隐藏状态的第一个 token)
cls_embedding = last_hidden_state[:, 0, :]print(cls_embedding)

代码说明:

  1. 加载 BERT 模型和 Tokenizer:

    • BertTokenizerBertModel 分别用于对文本进行标记化和加载预训练的 BERT 模型。
    • 我们使用了 bert-base-uncased 版本的模型。
  2. 设置模型为评估模式:

    • model.eval() 将模型设置为评估模式,关闭 dropout 和 batch normalization。
  3. 编码输入句子:

    • tokenizer(sentence, return_tensors='pt') 将句子转换为模型所需的输入格式。return_tensors='pt' 表示输出为 PyTorch 张量。
  4. 获取模型输出:

    • model(**inputs) 返回一个 BaseModelOutputWithPoolingAndCrossAttentions 对象,其中包含模型的隐藏状态。
    • outputs.last_hidden_state 是最后一层的隐藏状态,形状为 (batch_size, sequence_length, hidden_size)
  5. 提取 [CLS] token 的嵌入:

    • [CLS] token 的嵌入对应于最后一层隐藏状态的第一个 token (last_hidden_state[:, 0, :]),其形状为 (batch_size, hidden_size)
  6. 打印嵌入:

    • cls_embedding 是输入句子的嵌入。

对切片的解释

对上面一句切片的解释:

cls_embedding = last_hidden_state[:, 0, :] 这行代码中,[:, 0, :] 是一种高级的切片(slicing)语法,用于从 last_hidden_state 张量中提取特定的元素。让我们逐个解析这部分代码:

last_hidden_state 的维度

假设 last_hidden_state 是一个形状为 (batch_size, sequence_length, hidden_size) 的三维张量:

  • batch_size: 表示一批次中句子的数量(批次大小)。
  • sequence_length: 表示每个句子中的 token 数量。
  • hidden_size: 表示 BERT 模型的隐藏层大小(通常是 768 维度)。

切片语法解释

  • :: 代表取所有该维度的元素。
  • 0: 代表取该维度的第一个元素(索引从 0 开始)。
  • :: 再次代表取所有该维度的元素。

因此,[:, 0, :] 分别应用于 batch_size, sequence_length, 和 hidden_size 这三个维度。

具体解释

  1. :(第一个维度):

    • 代表取 batch_size 维度上的所有元素,即包含每个句子的结果。
  2. 0(第二个维度):

    • 代表取 sequence_length 维度上的第一个元素,也就是每个句子中的第一个 token 的隐藏状态。在 BERT 的输出中,第一个 token 通常是 [CLS] token。
  3. :(第三个维度):

    • 代表取 hidden_size 维度上的所有元素,也就是 [CLS] token 的整个隐藏状态向量。

总结

  • last_hidden_state[:, 0, :] 提取了每个句子的 [CLS] token 的隐藏状态向量,其中 batch_size 维度保持不变。
  • 最终得到的 cls_embedding 是一个形状为 (batch_size, hidden_size) 的二维张量,其中每一行是对应句子的 [CLS] token 的嵌入向量。

后记

2024年8月21日12点43分于上海,基于GPT4o大模型生成。

这篇关于Pytorch如何获取BERT模型最后一层隐藏状态的CLS的embedding?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1093645

相关文章

C++中RAII资源获取即初始化

《C++中RAII资源获取即初始化》RAII通过构造/析构自动管理资源生命周期,确保安全释放,本文就来介绍一下C++中的RAII技术及其应用,具有一定的参考价值,感兴趣的可以了解一下... 目录一、核心原理与机制二、标准库中的RAII实现三、自定义RAII类设计原则四、常见应用场景1. 内存管理2. 文件操

SpringBoot服务获取Pod当前IP的两种方案

《SpringBoot服务获取Pod当前IP的两种方案》在Kubernetes集群中,SpringBoot服务获取Pod当前IP的方案主要有两种,通过环境变量注入或通过Java代码动态获取网络接口IP... 目录方案一:通过 Kubernetes Downward API 注入环境变量原理步骤方案二:通过

使用Python实现获取屏幕像素颜色值

《使用Python实现获取屏幕像素颜色值》这篇文章主要为大家详细介绍了如何使用Python实现获取屏幕像素颜色值,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、一个小工具,按住F10键,颜色值会跟着显示。完整代码import tkinter as tkimport pyau

python获取cmd环境变量值的实现代码

《python获取cmd环境变量值的实现代码》:本文主要介绍在Python中获取命令行(cmd)环境变量的值,可以使用标准库中的os模块,需要的朋友可以参考下... 前言全局说明在执行py过程中,总要使用到系统环境变量一、说明1.1 环境:Windows 11 家庭版 24H2 26100.4061

Pytorch介绍与安装过程

《Pytorch介绍与安装过程》PyTorch因其直观的设计、卓越的灵活性以及强大的动态计算图功能,迅速在学术界和工业界获得了广泛认可,成为当前深度学习研究和开发的主流工具之一,本文给大家介绍Pyto... 目录1、Pytorch介绍1.1、核心理念1.2、核心组件与功能1.3、适用场景与优势总结1.4、优

conda安装GPU版pytorch默认却是cpu版本

《conda安装GPU版pytorch默认却是cpu版本》本文主要介绍了遇到Conda安装PyTorchGPU版本却默认安装CPU的问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的... 目录一、问题描述二、网上解决方案罗列【此节为反面方案罗列!!!】三、发现的根本原因[独家]3.1 p

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

IIS 7.0 及更高版本中的 FTP 状态代码

《IIS7.0及更高版本中的FTP状态代码》本文介绍IIS7.0中的FTP状态代码,方便大家在使用iis中发现ftp的问题... 简介尝试使用 FTP 访问运行 Internet Information Services (IIS) 7.0 或更高版本的服务器上的内容时,IIS 将返回指示响应状态的数字代

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

使用Python获取JS加载的数据的多种实现方法

《使用Python获取JS加载的数据的多种实现方法》在当今的互联网时代,网页数据的动态加载已经成为一种常见的技术手段,许多现代网站通过JavaScript(JS)动态加载内容,这使得传统的静态网页爬取... 目录引言一、动态 网页与js加载数据的原理二、python爬取JS加载数据的方法(一)分析网络请求1