llama-factory SFT系列教程 (三),chatglm3-6B 大模型命名实体识别实战

本文主要是介绍llama-factory SFT系列教程 (三),chatglm3-6B 大模型命名实体识别实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章列表:

  1. llama-factory SFT系列教程 (一),大模型 API 部署与使用
  2. llama-factory SFT系列教程 (二),大模型在自定义数据集 lora 训练与部署
  3. llama-factory SFT系列教程 (三),chatglm3-6B 命名实体识别实战

简介

利用 llama-factory 框架,基于 chatglm3-6B 模型 做命名实体识别任务;

本次实验的数据集、lora微调脚本、部署、推理、预测、评估的等相关资料已全部上传到 modelscope 平台;
output: 文件夹下,为 lora 微调的权重;
点击查看 https://modelscope.cn/datasets/jieshenai/llm_clue_ner2020/files
在这里插入图片描述

装包

git clone https://github.com/hiyouga/LLaMA-Factory.git
# conda create -n llama_factory python=3.10
# conda activate llama_factory
cd LLaMA-Factory
pip install -e .[metrics]

在 LLaMA-Factory 文件夹下,创建一个脚本文件夹,用来存放本次实验的数据集和脚本文件

mkdir glm_ner_scripts
cd glm_ner_scripts
git clone https://www.modelscope.cn/datasets/jieshenai/llm_clue_ner2020.git

使用 git clone 下载数据集和脚本文件

数据集

该数据集参考的 DeepKE的数据格式;

DeepKE 的代码不够通用,本文使用 llama-factory 做命名实体识别和通用的数据集格式,更方便读者学习与使用;

数据里已发布在 modelscope 平台上;

数据集示例:

{"instruction": "你是专门进行实体抽取的专家。请从input中抽取出符合schema定义的实体,不存在的实体类型返回空列表。请按照JSON字符串的格式回答。 schema: ['address', 'book', 'company', 'game', 'government', 'movie']", "input": "浙商银行企业信贷部叶老桂博士则从另一个角度对五道门槛进行了解读。叶老桂认为,对目前>国内商业银行而言,", "output": "{\"address\": [], \"book\": [], \"company\": [\"浙商银行\"], \"game\": [], \"government\": [], \"movie\": []}"
}

将 命名实体识别任务转换为 序列到序列的生成任务;

LLaMA-Factory/data/dataset_info.json 添加自定义数据集的配置信息;
llm_ner: 数据集名;
file_name: 文件名;
file_sha1: 利用 sha1sum train.json 计算文件的sha1值;
在这里插入图片描述

  "llm_ner2_train":{"file_name": "../glm_ner_scripts/llm_clue_ner2020/llm_ner_dataset2/train.json","file_sha1": "8dffb2d6e55ef8916f95ff7ccbcfbfe9d6865d12"},

lora 微调

bash train.sh

train.sh 脚本内容如下:

CUDA_VISIBLE_DEVICES=0 python ../../src/train_bash.py \
--stage sft \
--do_train \
--model_name_or_path ZhipuAI/chatglm3-6b \
--dataset_dir ../../data \
--dataset llm_ner2_train \
--template chatglm3 \
--finetuning_type lora \
--lora_target query_key_value \
--output_dir ./output/output_train \
--overwrite_cache \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_strategy epoch \
--learning_rate 5e-5 \
--num_train_epochs 2.0 \
--plot_loss \
--fp16
  • dataset_dir: llama-factory data/dataset_info.json 的文件夹路径;
    因为自定义数据集的配置信息,写在 dataset_info.json 文件中;
  • dataset : 在 data/dataset_info.json 中,配置的自定义数据集的名字;

在output文件夹中可找到训练过程中损失值图:

在这里插入图片描述

train.json 有18000条数据,跑了大概2个小时以上;
24G 显存的显卡恰好可以跑;

API 部署

使用训练完成的 LoRA 权重进行推理;
bash lora_infer.sh

CUDA_VISIBLE_DEVICES=0 API_PORT=8000 python ../../src/api_demo.py \--model_name_or_path ZhipuAI/chatglm3-6b \--adapter_name_or_path output/output_train/checkpoint-2250 \--template chatglm3 \--finetuning_type lora

部署
在这里插入图片描述

训练完成的模型lora权重, 在 modelscope 的 output 文件夹下;

使用 req.ipynb 调用API 接口,与大模型进行交互测试;
点击查看 req.ipynb https://modelscope.cn/datasets/jieshenai/llm_clue_ner2020/file/view/master/req.ipynb?status=1

大模型预测

使用 llm_ner_dataset2/dev.json 而不用 test.json;因为 test.json 的 label 标注有问题,读者忽略 test.json 这个文件即可;

req.ipynb 文本中,提供了如下功能:

  • request 针对大模型 API 发送请求,并处理大模型生成文本的代码;
  • 将大模型 生成的结果与原始数据集拼接在一起保存到 llm_predict2.json;

有待改进:
笔者一次发送一个请求,让大模型处理,大模型一次只能处理一行文本;
如果大模型能一次处理一个batch的文本,就可大大提高推理速度,该功能笔者没有实现;
欢迎读者提供相关的见解👏👏👏

评估

llm_predict2.json 的样例如下:

{"instruction": "{'instruction': '你是专门进行实体抽取的专家。请从input中抽取出符合schema定义的实体,不存在的实体类型返回空列表。请按照JSON字符串的格式回答。', 'schema': ['name', 'organization', 'position', 'scene'], 'input': '来自非洲的原料供应商莫檀壁表示“一些新入行的投资客往往被蓄意炒作的一些‘老前辈’、‘行业专家’、‘'}", "input": "", "output": "{\"name\": [\"莫檀壁\"], \"organization\": [], \"position\": [\"原料供应商\", \"行业专家\"], \"scene\": []}", "predict": {"name": ["莫檀壁"], "organization": [], "position": ["投资客", "专家"], "scene": []}
}
  • output: 真实的label;
  • predict:大模型预测的值;

在上一步预测 的llm_predict2.json 上评估大模型微调的效果;

使用 eval2.ipynb 进行评估实验,评估结果如下:
点击查看 eval2.ipynb https://modelscope.cn/datasets/jieshenai/llm_clue_ner2020/file/view/master/eval2.ipynb?status=1
在这里插入图片描述

缺少数据集

在这里插入图片描述
modelscope 会删除数据集,一言难尽;里面有一个压缩包备份,读者可以关注一下;

这篇关于llama-factory SFT系列教程 (三),chatglm3-6B 大模型命名实体识别实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/912624

相关文章

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)

《java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)》:本文主要介绍java中pdf模版填充表单踩坑的相关资料,OpenPDF、iText、PDFBox是三... 目录准备Pdf模版方法1:itextpdf7填充表单(1)加入依赖(2)代码(3)遇到的问题方法2:pd

2025版mysql8.0.41 winx64 手动安装详细教程

《2025版mysql8.0.41winx64手动安装详细教程》本文指导Windows系统下MySQL安装配置,包含解压、设置环境变量、my.ini配置、初始化密码获取、服务安装与手动启动等步骤,... 目录一、下载安装包二、配置环境变量三、安装配置四、启动 mysql 服务,修改密码一、下载安装包安装地

电脑提示d3dx11_43.dll缺失怎么办? DLL文件丢失的多种修复教程

《电脑提示d3dx11_43.dll缺失怎么办?DLL文件丢失的多种修复教程》在使用电脑玩游戏或运行某些图形处理软件时,有时会遇到系统提示“d3dx11_43.dll缺失”的错误,下面我们就来分享超... 在计算机使用过程中,我们可能会遇到一些错误提示,其中之一就是缺失某个dll文件。其中,d3dx11_4

Linux下在线安装启动VNC教程

《Linux下在线安装启动VNC教程》本文指导在CentOS7上在线安装VNC,包含安装、配置密码、启动/停止、清理重启步骤及注意事项,强调需安装VNC桌面以避免黑屏,并解决端口冲突和目录权限问题... 目录描述安装VNC安装 VNC 桌面可能遇到的问题总结描js述linux中的VNC就类似于Window

PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例

《PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例》词嵌入解决NLP维度灾难,捕捉语义关系,PyTorch的nn.Embedding模块提供灵活实现,支持参数配置、预训练及变长... 目录一、词嵌入(Word Embedding)简介为什么需要词嵌入?二、PyTorch中的nn.Em

MyBatis-Plus 自动赋值实体字段最佳实践指南

《MyBatis-Plus自动赋值实体字段最佳实践指南》MyBatis-Plus通过@TableField注解与填充策略,实现时间戳、用户信息、逻辑删除等字段的自动填充,减少手动赋值,提升开发效率与... 目录1. MyBATis-Plus 自动赋值概述1.1 适用场景1.2 自动填充的原理1.3 填充策略

Go语言编译环境设置教程

《Go语言编译环境设置教程》Go语言支持高并发(goroutine)、自动垃圾回收,编译为跨平台二进制文件,云原生兼容且社区活跃,开发便捷,内置测试与vet工具辅助检测错误,依赖模块化管理,提升开发效... 目录Go语言优势下载 Go  配置编译环境配置 GOPROXYIDE 设置(VS Code)一些基本

在IntelliJ IDEA中高效运行与调试Spring Boot项目的实战步骤

《在IntelliJIDEA中高效运行与调试SpringBoot项目的实战步骤》本章详解SpringBoot项目导入IntelliJIDEA的流程,教授运行与调试技巧,包括断点设置与变量查看,奠定... 目录引言:为良驹配上好鞍一、为何选择IntelliJ IDEA?二、实战:导入并运行你的第一个项目步骤1