Pytorch微调BERT实现命名实体识别

2025-03-20 13:50

本文主要是介绍Pytorch微调BERT实现命名实体识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著...

环境准备

在继续之前,确保你已经安装了PyTorch, Transformers by hugs Face和其他必要的python库:

pip install torch transformers datasets

加载预训练BERT模型

首先导入所需的模块并加载预训练的BERT模型。我们使用“bert-base-case”模型作为起点:

from transformers import BertTokenizer, BertForTokenClassification
import torch

# Load pre-trained model tokenizer (vocabulary)
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')

# Load pre-trained model for token classification
model = BertForTokenClassification.from_pretrained('bert-base-cased', num_labels=9)

这里,num_labels表示我们希望分类的实体类型的数量。对于简单的NER任务,这可能包括PERSON、ORGANIZATION、LOCATION等标签。

准备数据集

我们将使用hug Face数据集库来加载数据集。我们将用‘conll2003’数据集来演示这一点:

from datasets import load_dataset

dataset = load_dataset("conll2003")

CoNLL-2003 数据集包含单词、词性标记、句法块标记和命名实体标记。对于NER任务,我们感兴趣的是“NER”标签。它是经典的 英文命名实体识别(Named Entity Recognition, NER) 数据集。以下是详细介绍:

1. 数据集背景

  • 全称: Conference on Neural Information Processing Systems (CoNLL) 2003 Task
  • 领域: 自然语言处理(NLP)
  • 任务: 命名实体识别(NER)
  • 语言: 英文(English)
  • 主办方: CoNLL 会议(Hugging Face js的 load_dataset 已将其整合到平台)

2. 核心内容

标注实体类型

数据集中定义了以下 js4 种实体类型:

  • PER(人名,如 “John Smith”)
  • ORG(组织机构,如 “Google”)
  • LOC(地理位置,如 “New York”)
  • DATE(日期,如 “2023-10-05”)

数据格式

  • 结构: 每条数据是一个句子,按空格分割的单词列表,每个单词附带对应的标签。

  • 示例:

[
  {"word": "John", "label": "PER"},
  {"word": "works", "label": "O"},
  {"word": "at", "label": "O"},
  {"word": "Google", "label": "ORG"},
  ...
]
  • 列名text(句子原文)、words(分词后的单词列表)、labels(实体标签)。

数据集划分

  • 训练集: ~14,000 句子
  • 验证集: ~3,00http://www.chinasem.cn0 句子
  • 测试集: ~3,000 句子

3. 应用场景

  • 训练 NER 模型: 如 RNN、LSTM、Transformer(BERT 等)。
  • 评估模型性能: 官方提供了基准结果(如 F1 分数),可用于对比模型效果。
  • 研究 NLP 任务: 分析实体识别的难点(如歧义、复合实体)。

注意事项

  • 标注标准: 标签为 O 表示非实体,其他为具体实体类型。
  • 数据规模: 相比现代数据集(如 OntoNotes),句子和单词数量较小,适合快速验证模型。
  • 扩展性: 可与http://www.chinasem.cn其他 NER 数据集(如 conll2000nerdb)结合使用以提升模型泛化能力。

标记与对齐

在通过 BERT 处理数据之前,正确地对其进行标记并管理词块标记化至关重要,这包括正确对齐实体标签。以下是我们在数据集上进行标记化和对齐的方式:

def tokenize_and_align_labels(examples):
    tokenized_inputs = 
    tokenizer(examples["tokens"], 
              truncation=True, 
     China编程         padding="max_length", 
              is_split_into_words=True)
    labels = []
    for i, label in enumerate(examples["ner"]):
        word_ids = tokenized_inputs.word_ids(BATch_index=i)
        previous_word_idx = None
        label_ids = []
        for word_idx in word_ids:
            if word_idx is None:
                label_ids.append(-100)
            elif word_idx != previous_word_idx:
                label_ids.append(label[word_idx])
            else:
                label_ids.append(-100)
            previous_word_idx = word_idx
        labels.append(label_ids)
    tokenized_inputs["labels"] = labels
    return tokenized_inputs

# Apply tokenizer
encoded_dataset = dataset.map(tokenize_and_align_labels, batched=True)

这段代码的作用是对 命名实体识别(NER)数据进行分词(Tokenization)和标签对齐(Label Alignment),使其适配预训练模型(如 BERT、RoBERTa 等)的输入格式。以下是逐行解释和核心逻辑分析:

  • 输入 examples 包含两个关键字段:
    • "tokens": 原始句子的单词列表(如 [["John", "works", "at"], ...])。
    • "ner": 对应的实体标签列表(如 [["PER", "O", "O"], ...])。
  • 输出:
    • tokenized_inputs: 分词后的模型输入(包含 input_idsattention_mask 等)。
    • labels: 与模型输出对齐的标签(将原始标签映射到分词后的子词位置)。

-100 标签用于在训练期间屏蔽标签,并且对应于在损失计算过程中必须跳过的标记。

微调 BERT

让我们使用 PyTorch 框架设置数据加载器,并定义训练和评估函数。此过程涉及配置优化器、设置学习率以及建立微调循环:

from torch.utils.data import DataLoader
from transformers import AdamW

train_dataset = encoded_dataset["train"]
train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=16)

optimizer = AdamW(model.parameters(), lr=5e-5)

model.train()
for epoch in range(3):  # loop over the dataset multiple times
    for batch in train_dataloader:
        inputs = {k: v.to(device) for k, v in batch.items() if k != "labels"}
        labels = batch["labels"].to(device)
        outputs = model(**inputs, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

训练通常需要对 GPU 利用率给予特别关注。如果具备使用 GPU 的条件,请确保您的模型、输入数据以及优化器都已迁移到 GPU 上。

最后总结

在 PyTorch 中对 BERT 进行微调以用于命名实体识别涉及一系列步骤,从加载预训练的 BERT 分词器和模型开始,到准备数据集、训练,最后使用训练好的模型来识别命名实体。有了合适的数据集和适当的模型调整,这种技术使你能够利用最先进的 NLP 架构应用于各种实际场景。

以上就是Pytorch微调BERT实现命名实体识别的详细内容,更多关于Pytorch BERT命名实体识别的资料请关注编程China编程(www.chinasem.cn)其它相关文章!

这篇关于Pytorch微调BERT实现命名实体识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1153849

相关文章

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

基于Python实现一个Windows Tree命令工具

《基于Python实现一个WindowsTree命令工具》今天想要在Windows平台的CMD命令终端窗口中使用像Linux下的tree命令,打印一下目录结构层级树,然而还真有tree命令,但是发现... 目录引言实现代码使用说明可用选项示例用法功能特点添加到环境变量方法一:创建批处理文件并添加到PATH1

Java使用HttpClient实现图片下载与本地保存功能

《Java使用HttpClient实现图片下载与本地保存功能》在当今数字化时代,网络资源的获取与处理已成为软件开发中的常见需求,其中,图片作为网络上最常见的资源之一,其下载与保存功能在许多应用场景中都... 目录引言一、Apache HttpClient简介二、技术栈与环境准备三、实现图片下载与保存功能1.

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

Nexus安装和启动的实现教程

《Nexus安装和启动的实现教程》:本文主要介绍Nexus安装和启动的实现教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Nexus下载二、Nexus安装和启动三、关闭Nexus总结一、Nexus下载官方下载链接:DownloadWindows系统根

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

《SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程》LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑,下面给大... 目录一、基础概念1.1 组件(Component)1.2 规则(Rule)1.3 上下文(Conte

MySQL 横向衍生表(Lateral Derived Tables)的实现

《MySQL横向衍生表(LateralDerivedTables)的实现》横向衍生表适用于在需要通过子查询获取中间结果集的场景,相对于普通衍生表,横向衍生表可以引用在其之前出现过的表名,本文就来... 目录一、横向衍生表用法示例1.1 用法示例1.2 使用建议前面我们介绍过mysql中的衍生表(From子句

Mybatis的分页实现方式

《Mybatis的分页实现方式》MyBatis的分页实现方式主要有以下几种,每种方式适用于不同的场景,且在性能、灵活性和代码侵入性上有所差异,对Mybatis的分页实现方式感兴趣的朋友一起看看吧... 目录​1. 原生 SQL 分页(物理分页)​​2. RowBounds 分页(逻辑分页)​​3. Page

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

MYSQL查询结果实现发送给客户端

《MYSQL查询结果实现发送给客户端》:本文主要介绍MYSQL查询结果实现发送给客户端方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql取数据和发数据的流程(边读边发)Sending to clientSending DataLRU(Least Rec