BERT-文本分类NER

2024-01-25 16:20
文章标签 分类 文本 ner bert

本文主要是介绍BERT-文本分类NER,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

BERT文本分类

训练样本

训练数据:18W条

评估数据:1W条

测试数据:1W条

体验2D巅峰 倚天屠龙记十大创新概览	8
60年铁树开花形状似玉米芯(组图)	5
同步A股首秀:港股缩量回调	2
中青宝sg现场抓拍 兔子舞热辣表演	8
锌价难续去年辉煌	0
2岁男童爬窗台不慎7楼坠下获救(图)	5
布拉特:放球员一条生路吧 FIFA能消化俱乐部的攻击	7
金科西府 名墅天成	1
状元心经:考前一周重点是回顾和整理	3

训练代码

https://github.com/HeiBoWang/Pytorch-NLP/tree/master   →  02-Bert 文本分类  →  main.py

dev f1:0.9664522058823529, precision:0.9580865603644647,recall:0.9749652294853964
test f1:0.9651982378854626, precision:0.9618086040386303,recall:0.9686118479221928

预测代码以及结果

https://github.com/HeiBoWang/Pytorch-NLP/tree/master   →  02-Bert 文本分类  →  predict.py

模型预测结果:
文本:我们一起去打篮球吧!	预测的类别为:game
文本:我喜欢踢足球!	预测的类别为:game
文本:沈腾和马丽的新电影《独行月球》很好看	预测的类别为:entertainment
文本:昨天玩游戏,完了一整天	预测的类别为:game
文本:现在的高考都已经开始分科考试了。	预测的类别为:education
文本:中方:佩洛西如赴台将致严重后果	预测的类别为:politics
文本:现在的股票基金趋势很不好	预测的类别为:finance
耗时为:2.3200602531433105 s

评价指标

dev acc:0.9305
最佳模型Loss
Train_Loss:0.1319

BERT命名实体识别

训练样本

训练数据:127919条

评估数据:14352条

测试数据:15576条

吴 B-NAME
重 I-NAME
阳 E-NAME
, O
中 B-CONT
国 I-CONT
国 I-CONT
籍 E-CONT
, O
大 B-EDU
学 I-EDU
本 I-EDU
科 E-EDU
, O
教 B-TITLE
授 I-TITLE
级 I-TITLE
高 I-TITLE
工 E-TITLE
, O
享 O
受 O
国 O
务 O
院 O
特 O
殊 O
津 O
贴 O
, O
历 O
任 O
邮 B-ORG
电 I-ORG
部 I-ORG
侯 I-ORG
马 I-ORG
电 I-ORG
缆 I-ORG
厂 E-ORG
仪 B-TITLE
表 I-TITLE
试 I-TITLE
制 I-TITLE
组 I-TITLE
长 E-TITLE
、 O
光 B-TITLE
缆 I-TITLE
分 I-TITLE
厂 I-TITLE
副 I-TITLE
厂 I-TITLE
长 E-TITLE
、 O
研 B-TITLE
究 I-TITLE
所 I-TITLE
副 I-TITLE
所 I-TITLE
长 E-TITLE
, O
获 O
得 O
过 O
山 O
西 O
省 O
科 O
技 O
先 O
进 O
工 O
作 O
者 O

训练代码&评价指标

https://github.com/HeiBoWang/Pytorch-NLP/tree/master   → 07-Bert 实体识别  →  main.py

dev f1:0.9664522058823529, precision:0.9580865603644647,recall:0.9749652294853964
test f1:0.9651982378854626, precision:0.9618086040386303,recall:0.9686118479221928
运行时间:3.3876 min

预测代码以及结果

https://github.com/HeiBoWang/Pytorch-NLP/tree/master   →  07-Bert 实体识别  →  predict.py

模型预测结果:
文本:李某某,男,2012年4月出生,本科学历,工科学士,毕业于电子科技大学。       
预测的类别为:['S-ORG', 'I-NAME', 'UNK', 'E-NAME', 'O', 'I-NAME', 'E-EDU', 'I-ORG', 'I-NAME', 'I-ORG', 'I-NAME', 'S-ORG', 'S-ORG', 'I-EDU', 'E-EDU', 'I-ORG', 'E-LOC', 'S-ORG', 'S-ORG', 'B-NAME', 'I-NAME', 'B-PRO', 'B-PRO', 'E-NAME', 'UNK', 'UNK', 'B-NAME', 'E-LOC', 'B-NAME', 'S-ORG']
耗时为:6.1840057373046875 s

这篇关于BERT-文本分类NER的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/643844

相关文章

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具:字符串方法与序列匹配二、正则表达式:模式匹配的瑞士军刀2.1 re模块核心AP

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost?使用 AdaBoost 的步骤安装必要的库步骤一:数据准备步骤二:模型