实体库构建:大规模离线新词实体挖掘

2023-11-11 08:28

本文主要是介绍实体库构建:大规模离线新词实体挖掘,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

实体库构建:离线新词发现流程

命名体识别我们一般有两个操作:词典匹配+模型预测。

对于词典匹配来说,速度快,准确度高。但是有一个问题是由于不同人对同一个东西有不同的表达,所以OOV问题比较严重。

缓解OOV,我们可以使用模型预测增加泛化,还可以离线挖掘实体进行补充实体库。

美团在这个文章中提到了一种新词离线挖掘补充实体库的方法,我借鉴了其中的思路,并且用到了自己工作中,效果还不错。在这个文章,我主要是详细解读一下整个过程。

我们聊一下为什么需要做新词发现?

新词是什么?按照最普通的定义就是我词典中不存在的词汇都属于新词。如果按照这个思路去挖掘新词,我们一般使用两种方法:有监督和无监督。

无监督一般来说就是使用紧密度加自由度调整阈值就可以提取新词。但是这种方法有一个问题,就是你这个阈值的调整到哪里才可以,这个取决于你的召回和精确的一个平衡。

有监督的话,一个简单的思路就是序列标注做中文分词,出来的词汇不在字典中的我们就可以作为新词。

但是我们想一下这样新词出现的是什么情况?

举个最简单的例子,可能你挖掘出来的就是“爷青结”这样的词汇,确实是新词,不在我们已经有词典中,但是对于我们的实体库有没有帮助呢?

有没有帮助要看我们的目的。如果说我们的目的是为了分词的准确,那么这个新词完全可以用,直接放到txt文件中,保证下回分类的准确。

但是在这里,我们是做的事情是为了补充实体库,也就是需要有意义的词汇,比如说“外滩十八号”这种词汇。

所以,普通的新词发现的有监督和无监督方法只能挖掘词汇,不能保证挖掘的是实体。

基于此目的,可以借鉴新词挖掘的思路,对词汇做二元分类判断是不是实体的有监督方法就很容易想到。

总结下来步骤就是这样:

  1. 挖掘频繁项

  2. 提取频繁项的各种统计特征

  3. 频繁项和已经有的实体交集作为正样本,负采样得到负样本。使用多个分类器进行集成,训练多个二元分类器。

采用负样本的时候,美团有提到一个论文,大家可以去看一下。

  1. 搜索日志中搜索次数比较高的词条和正样本的交集作为高质量短语,负样本减去词条作为低质量短语,使用Bert训练质量打分器。

整个流程通读下来,其实很好理解。

一般来讲,如果实践过程,第四个步骤其实很难做。

我是这样想的,首先这个美团搜索很垂直,一般搜索属于短query,你很难去在美团搜索框去搜一个很长的句子。

这种情况下,就会出顾客的搜索记录本身就是高质量的短语或者实体。想一下是不是这样,你去搜“来杯啤酒烧烤”,这本身就是个商户名称,就是个实体。所以交集才可以作为高质量短语。

如果你是个大搜的搜索日志,这种情况基本不存在的,有长短语,有短的词汇,你找交集的阈值都无从下手。

第二个难点就是Bert打分器这个东西的可靠性。一般来说实体的字数都比较少,比如五六个字,字数这么少,这个打分究竟可靠不可靠我没有实践过,只是有这个疑惑。

整个做完,还有一个问题,实体库是分类别的,比如美食有一个词典,景点有一个词典等等吧。我们上面挖掘出来的是全部的实体,不分类别的,那么怎么分类呢?

美团提到他们使用的AutoNER,大家可以去看一下相关论文。针对这一块,其实能做的思路还挺多的,由于工作原因,这块我就不说了。大家可以发散思路。

这篇关于实体库构建:大规模离线新词实体挖掘的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/388781

相关文章

使用Node.js和PostgreSQL构建数据库应用

《使用Node.js和PostgreSQL构建数据库应用》PostgreSQL是一个功能强大的开源关系型数据库,而Node.js是构建高效网络应用的理想平台,结合这两个技术,我们可以创建出色的数据驱动... 目录初始化项目与安装依赖建立数据库连接执行CRUD操作查询数据插入数据更新数据删除数据完整示例与最佳

Docker多阶段镜像构建与缓存利用性能优化实践指南

《Docker多阶段镜像构建与缓存利用性能优化实践指南》这篇文章将从原理层面深入解析Docker多阶段构建与缓存机制,结合实际项目示例,说明如何有效利用构建缓存,组织镜像层次,最大化提升构建速度并减少... 目录一、技术背景与应用场景二、核心原理深入分析三、关键 dockerfile 解读3.1 Docke

Three.js构建一个 3D 商品展示空间完整实战项目

《Three.js构建一个3D商品展示空间完整实战项目》Three.js是一个强大的JavaScript库,专用于在Web浏览器中创建3D图形,:本文主要介绍Three.js构建一个3D商品展... 目录引言项目核心技术1. 项目架构与资源组织2. 多模型切换、交互热点绑定3. 移动端适配与帧率优化4. 可

Python利用PySpark和Kafka实现流处理引擎构建指南

《Python利用PySpark和Kafka实现流处理引擎构建指南》本文将深入解剖基于Python的实时处理黄金组合:Kafka(分布式消息队列)与PySpark(分布式计算引擎)的化学反应,并构建一... 目录引言:数据洪流时代的生存法则第一章 Kafka:数据世界的中央神经系统消息引擎核心设计哲学高吞吐

Springboot项目构建时各种依赖详细介绍与依赖关系说明详解

《Springboot项目构建时各种依赖详细介绍与依赖关系说明详解》SpringBoot通过spring-boot-dependencies统一依赖版本管理,spring-boot-starter-w... 目录一、spring-boot-dependencies1.简介2. 内容概览3.核心内容结构4.

Go语言使用net/http构建一个RESTful API的示例代码

《Go语言使用net/http构建一个RESTfulAPI的示例代码》Go的标准库net/http提供了构建Web服务所需的强大功能,虽然众多第三方框架(如Gin、Echo)已经封装了很多功能,但... 目录引言一、什么是 RESTful API?二、实战目标:用户信息管理 API三、代码实现1. 用户数据

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

深入浅出SpringBoot WebSocket构建实时应用全面指南

《深入浅出SpringBootWebSocket构建实时应用全面指南》WebSocket是一种在单个TCP连接上进行全双工通信的协议,这篇文章主要为大家详细介绍了SpringBoot如何集成WebS... 目录前言为什么需要 WebSocketWebSocket 是什么Spring Boot 如何简化 We

MyBatis-Plus 自动赋值实体字段最佳实践指南

《MyBatis-Plus自动赋值实体字段最佳实践指南》MyBatis-Plus通过@TableField注解与填充策略,实现时间戳、用户信息、逻辑删除等字段的自动填充,减少手动赋值,提升开发效率与... 目录1. MyBATis-Plus 自动赋值概述1.1 适用场景1.2 自动填充的原理1.3 填充策略

Spring Boot Maven 插件如何构建可执行 JAR 的核心配置

《SpringBootMaven插件如何构建可执行JAR的核心配置》SpringBoot核心Maven插件,用于生成可执行JAR/WAR,内置服务器简化部署,支持热部署、多环境配置及依赖管理... 目录前言一、插件的核心功能与目标1.1 插件的定位1.2 插件的 Goals(目标)1.3 插件定位1.4 核