NLP学习06_评估语言模型smoothing

2024-04-09 12:48

本文主要是介绍NLP学习06_评估语言模型smoothing,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

估计语言模型的概率

Unigram

首先统计语料库中所有的单词个数,然后统计每个单词出现的概率,
计算整句的概率
但是这种LM中,如果一个句子中的单词在语料库中没有出现,那么这个词的概率为0,这就导致整个句子概率为0
这显然是不合适的,用到一个平滑操作,使得虽然概率很小,但是不让它为0
在这里插入图片描述

Bigram

除了第一个单词的概率要通过Unigram计算,其他后边都是条件概率,要先在语料库找到条件词出现的个数
然后看这个条件词后跟目标词的个数,统计出概率相乘
在这里插入图片描述

N-gram

在这里插入图片描述
由上可知,这种N-gram的语言模型总是会出现某一个单词或者单词序列没有而导致整个句子的概率为0 的情况

评估语言模型

在一个任务上进行模型评估,必须将整个系统实现,然后才能计算准确率,这个过程是很耗时的
在这里插入图片描述
所以考虑先对模型进行评估,然后在用到任务上,
在任务外进行评估,具有公平性,而且可以跟很多模型比较

Perplexity:用来评估模型

在这里插入图片描述
在一个已经训练好的LM中
计算P,然后计算logP,求和,再平均,得到的结果就是x,把x代到公式perplexity = 2^-x
得到perplexity
在这里插入图片描述
不同应用场景使用的评估方法不同
在这里插入图片描述
在上边的测试结果中,Trigram的perplexity最小,所以模型最好
N-gram,N越大,模型越复杂, 越倾向于过拟合

平滑smoothing

在这里插入图片描述
由于某一个概率为0,导致整个句子的概率为0,这样导致不同语法的句子表现不出区别,所以要使用平滑的技术

平滑分为不同的方法

在这里插入图片描述
MLE:最大似然估计

add-one smoothing

也叫拉普拉斯平滑项
之前我们计算的基于前一个词的概率是最大似然估计,可能会出现概率为0,
但是平滑处理就是要给他加一个很小的概率
分子上加1,分母上加V,V即词典的大小(排除重复的单词)
在这里插入图片描述
在这里插入图片描述
之所以在分母位置加V,目的是所有的可能项平滑操作后的概率之和为1

add-K smoothing

K=1时就是add-one
这个K的值可以自己去调试,也可以通过训练得到
在这里插入图片描述
K的选择,可以通过尝试来确定,也可以通过优化的方法确定
在这里插入图片描述
比如我们在训练集已经得到LM,也就是知道词的概率,然后用到验证集上,就可以得到perplexity关于f(k)的函数
因为perplexity是越小,模型越好,所以我们找perplexity最小时的K,就是我们想要的K

平滑方法三:Interpolation

问题:当使用Trigram LM时,由于in the 没有在训练集中出现,所以导致两个条件概率都是0,但是根据实际经验,在训练集中,kitchen出现的概率是大于arboretum的,那么条件概率也应该有相同的判断。而且也不能保证在以后的语料库不会出现in the这个词
为解决这一问题,提出interpolation
在使用Trigram LM时,要同时去考虑Unigram和Bigram中的出现的频次
在这里插入图片描述
在这里插入图片描述
综合考虑LM ,给Unigram,Bigram,Trigram进行一个加权,三个都要考虑到
但是要保证权重和为1

平滑方法四:good-turning soomthing

在这里插入图片描述
Nc :表示出现c次的单词个数
在这里插入图片描述
在这里插入图片描述
下表前两列表示统计一个词典库中单词数量从0-出现20次的单词个数,
第三列是根据good-turning来计算的一个单词出现的概率
第四列是在实际的测试集中统计的单词出现概率,会发现使用good-turning推测的概率和实际概率很接近。
说明这种平滑方法的实用性
在这里插入图片描述
这种方法存在一个问题:在计算出现c次单词再出现的概率时,依赖于于出现c+1次单词的概率,但是如果没有后一项或者说后一项出现c+1次单词的个数是0,那么前一项计算结果概率就成了0.
所以这里我们会使用线性回归的方式确定一条平滑的曲线,这样那些出现N个单词的个数也就有一个值来对应。
在这里插入图片描述

这篇关于NLP学习06_评估语言模型smoothing的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/888191

相关文章

Go语言中make和new的区别及说明

《Go语言中make和new的区别及说明》:本文主要介绍Go语言中make和new的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1 概述2 new 函数2.1 功能2.2 语法2.3 初始化案例3 make 函数3.1 功能3.2 语法3.3 初始化

Go语言中nil判断的注意事项(最新推荐)

《Go语言中nil判断的注意事项(最新推荐)》本文给大家介绍Go语言中nil判断的注意事项,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.接口变量的特殊行为2.nil的合法类型3.nil值的实用行为4.自定义类型与nil5.反射判断nil6.函数返回的

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

Go语言代码格式化的技巧分享

《Go语言代码格式化的技巧分享》在Go语言的开发过程中,代码格式化是一个看似细微却至关重要的环节,良好的代码格式化不仅能提升代码的可读性,还能促进团队协作,减少因代码风格差异引发的问题,Go在代码格式... 目录一、Go 语言代码格式化的重要性二、Go 语言代码格式化工具:gofmt 与 go fmt(一)

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Go语言中泄漏缓冲区的问题解决

《Go语言中泄漏缓冲区的问题解决》缓冲区是一种常见的数据结构,常被用于在不同的并发单元之间传递数据,然而,若缓冲区使用不当,就可能引发泄漏缓冲区问题,本文就来介绍一下问题的解决,感兴趣的可以了解一下... 目录引言泄漏缓冲区的基本概念代码示例:泄漏缓冲区的产生项目场景:Web 服务器中的请求缓冲场景描述代码

Go语言如何判断两张图片的相似度

《Go语言如何判断两张图片的相似度》这篇文章主要为大家详细介绍了Go语言如何中实现判断两张图片的相似度的两种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 在介绍技术细节前,我们先来看看图片对比在哪些场景下可以用得到:图片去重:自动删除重复图片,为存储空间"瘦身"。想象你是一个

Go语言中Recover机制的使用

《Go语言中Recover机制的使用》Go语言的recover机制通过defer函数捕获panic,实现异常恢复与程序稳定性,具有一定的参考价值,感兴趣的可以了解一下... 目录引言Recover 的基本概念基本代码示例简单的 Recover 示例嵌套函数中的 Recover项目场景中的应用Web 服务器中

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可