实体库构建:大规模离线新词实体挖掘

2023-11-11 08:28

本文主要是介绍实体库构建:大规模离线新词实体挖掘,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

实体库构建:离线新词发现流程

命名体识别我们一般有两个操作:词典匹配+模型预测。

对于词典匹配来说,速度快,准确度高。但是有一个问题是由于不同人对同一个东西有不同的表达,所以OOV问题比较严重。

缓解OOV,我们可以使用模型预测增加泛化,还可以离线挖掘实体进行补充实体库。

美团在这个文章中提到了一种新词离线挖掘补充实体库的方法,我借鉴了其中的思路,并且用到了自己工作中,效果还不错。在这个文章,我主要是详细解读一下整个过程。

我们聊一下为什么需要做新词发现?

新词是什么?按照最普通的定义就是我词典中不存在的词汇都属于新词。如果按照这个思路去挖掘新词,我们一般使用两种方法:有监督和无监督。

无监督一般来说就是使用紧密度加自由度调整阈值就可以提取新词。但是这种方法有一个问题,就是你这个阈值的调整到哪里才可以,这个取决于你的召回和精确的一个平衡。

有监督的话,一个简单的思路就是序列标注做中文分词,出来的词汇不在字典中的我们就可以作为新词。

但是我们想一下这样新词出现的是什么情况?

举个最简单的例子,可能你挖掘出来的就是“爷青结”这样的词汇,确实是新词,不在我们已经有词典中,但是对于我们的实体库有没有帮助呢?

有没有帮助要看我们的目的。如果说我们的目的是为了分词的准确,那么这个新词完全可以用,直接放到txt文件中,保证下回分类的准确。

但是在这里,我们是做的事情是为了补充实体库,也就是需要有意义的词汇,比如说“外滩十八号”这种词汇。

所以,普通的新词发现的有监督和无监督方法只能挖掘词汇,不能保证挖掘的是实体。

基于此目的,可以借鉴新词挖掘的思路,对词汇做二元分类判断是不是实体的有监督方法就很容易想到。

总结下来步骤就是这样:

  1. 挖掘频繁项

  2. 提取频繁项的各种统计特征

  3. 频繁项和已经有的实体交集作为正样本,负采样得到负样本。使用多个分类器进行集成,训练多个二元分类器。

采用负样本的时候,美团有提到一个论文,大家可以去看一下。

  1. 搜索日志中搜索次数比较高的词条和正样本的交集作为高质量短语,负样本减去词条作为低质量短语,使用Bert训练质量打分器。

整个流程通读下来,其实很好理解。

一般来讲,如果实践过程,第四个步骤其实很难做。

我是这样想的,首先这个美团搜索很垂直,一般搜索属于短query,你很难去在美团搜索框去搜一个很长的句子。

这种情况下,就会出顾客的搜索记录本身就是高质量的短语或者实体。想一下是不是这样,你去搜“来杯啤酒烧烤”,这本身就是个商户名称,就是个实体。所以交集才可以作为高质量短语。

如果你是个大搜的搜索日志,这种情况基本不存在的,有长短语,有短的词汇,你找交集的阈值都无从下手。

第二个难点就是Bert打分器这个东西的可靠性。一般来说实体的字数都比较少,比如五六个字,字数这么少,这个打分究竟可靠不可靠我没有实践过,只是有这个疑惑。

整个做完,还有一个问题,实体库是分类别的,比如美食有一个词典,景点有一个词典等等吧。我们上面挖掘出来的是全部的实体,不分类别的,那么怎么分类呢?

美团提到他们使用的AutoNER,大家可以去看一下相关论文。针对这一块,其实能做的思路还挺多的,由于工作原因,这块我就不说了。大家可以发散思路。

这篇关于实体库构建:大规模离线新词实体挖掘的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/388781

相关文章

基于Python构建一个高效词汇表

《基于Python构建一个高效词汇表》在自然语言处理(NLP)领域,构建高效的词汇表是文本预处理的关键步骤,本文将解析一个使用Python实现的n-gram词频统计工具,感兴趣的可以了解下... 目录一、项目背景与目标1.1 技术需求1.2 核心技术栈二、核心代码解析2.1 数据处理函数2.2 数据处理流程

Python FastMCP构建MCP服务端与客户端的详细步骤

《PythonFastMCP构建MCP服务端与客户端的详细步骤》MCP(Multi-ClientProtocol)是一种用于构建可扩展服务的通信协议框架,本文将使用FastMCP搭建一个支持St... 目录简介环境准备服务端实现(server.py)客户端实现(client.py)运行效果扩展方向常见问题结

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

一文教你Java如何快速构建项目骨架

《一文教你Java如何快速构建项目骨架》在Java项目开发过程中,构建项目骨架是一项繁琐但又基础重要的工作,Java领域有许多代码生成工具可以帮助我们快速完成这一任务,下面就跟随小编一起来了解下... 目录一、代码生成工具概述常用 Java 代码生成工具简介代码生成工具的优势二、使用 MyBATis Gen

Python使用Reflex构建现代Web应用的完全指南

《Python使用Reflex构建现代Web应用的完全指南》这篇文章为大家深入介绍了Reflex框架的设计理念,技术特性,项目结构,核心API,实际开发流程以及与其他框架的对比和部署建议,感兴趣的小伙... 目录什么是 ReFlex?为什么选择 Reflex?安装与环境配置构建你的第一个应用核心概念解析组件

Python+wxPython构建图像编辑器

《Python+wxPython构建图像编辑器》图像编辑应用是学习GUI编程和图像处理的绝佳项目,本教程中,我们将使用wxPython,一个跨平台的PythonGUI工具包,构建一个简单的... 目录引言环境设置创建主窗口加载和显示图像实现绘制工具矩形绘制箭头绘制文字绘制临时绘制处理缩放和旋转缩放旋转保存编

Java中的StringBuilder之如何高效构建字符串

《Java中的StringBuilder之如何高效构建字符串》本文将深入浅出地介绍StringBuilder的使用方法、性能优势以及相关字符串处理技术,结合代码示例帮助读者更好地理解和应用,希望对大家... 目录关键点什么是 StringBuilder?为什么需要 StringBuilder?如何使用 St

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加

一文详解如何从零构建Spring Boot Starter并实现整合

《一文详解如何从零构建SpringBootStarter并实现整合》SpringBoot是一个开源的Java基础框架,用于创建独立、生产级的基于Spring框架的应用程序,:本文主要介绍如何从... 目录一、Spring Boot Starter的核心价值二、Starter项目创建全流程2.1 项目初始化(