狄里克雷平滑(Dirichlet)、线性插值平滑(Linear Interpolated)、拉普拉斯平滑(Laplacian)

本文主要是介绍狄里克雷平滑(Dirichlet)、线性插值平滑(Linear Interpolated)、拉普拉斯平滑(Laplacian),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一元语言模型(Unigram Language Model)就是关于全部单词上的一个概率分布,它认为每篇文章都对应一个一元语言模型,文章中的单词都是从这个概率分布中采样得到。所以计算文章和查询语句之间的相关性,相当于计算文章对应的一元语言模型产生出查询语句的概率。

通常我们统计文档中的单词频率分布来估计文章对应的一元语言模型,但是未出现在文档中的单词的概率就被设置为0了,这显然是不合理的。所以需要对得到的一元语言模型进行平滑,使其更接近真实的概率分布。(说白了就是给那些未出现在文档中的单词分配些概率)

一,线性插值平滑


上式是线性插值平滑法,其中P(w|D)表示从文档中估计得到的单词w的概率(也就是单词w的在文档D中出现的个数除以文档D中单词总数)。P(w|C)是从语料库中估计得到的单词w的概率(也就是单词w的在语料库C中出现的个数除以语料库C中单词总数)。λ是平滑参数,调整两种概率之间的权重。MD是最后得到的一元语言模型,P(w|MD)表示一元语言模型MD产生单词w的概率。

文档中单词个数有限,对一些和本文档主题无关的单词w,它的P(w|D)很可能为0。但是语料库C表示所有文档的集合,所以P(w|C)

这篇关于狄里克雷平滑(Dirichlet)、线性插值平滑(Linear Interpolated)、拉普拉斯平滑(Laplacian)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/965601

相关文章

MySQL按时间维度对亿级数据表进行平滑分表

《MySQL按时间维度对亿级数据表进行平滑分表》本文将以一个真实的4亿数据表分表案例为基础,详细介绍如何在不影响线上业务的情况下,完成按时间维度分表的完整过程,感兴趣的小伙伴可以了解一下... 目录引言一、为什么我们需要分表1.1 单表数据量过大的问题1.2 分表方案选型二、分表前的准备工作2.1 数据评估

Nginx进行平滑升级的实战指南(不中断服务版本更新)

《Nginx进行平滑升级的实战指南(不中断服务版本更新)》Nginx的平滑升级(也称为热升级)是一种在不停止服务的情况下更新Nginx版本或添加模块的方法,这种升级方式确保了服务的高可用性,避免了因升... 目录一.下载并编译新版Nginx1.下载解压2.编译二.替换可执行文件,并平滑升级1.替换可执行文件

理解分类器(linear)为什么可以做语义方向的指导?(解纠缠)

Attribute Manipulation(属性编辑)、disentanglement(解纠缠)常用的两种做法:线性探针和PCA_disentanglement和alignment-CSDN博客 在解纠缠的过程中,有一种非常简单的方法来引导G向某个方向进行生成,然后我们通过向不同的方向进行行走,那么就会得到这个属性上的图像。那么你利用多个方向进行生成,便得到了各种方向的图像,每个方向对应了很多

Golang支持平滑升级的HTTP服务

前段时间用Golang在做一个HTTP的接口,因编译型语言的特性,修改了代码需要重新编译可执行文件,关闭正在运行的老程序,并启动新程序。对于访问量较大的面向用户的产品,关闭、重启的过程中势必会出现无法访问的情况,从而影响用户体验。 使用Golang的系统包开发HTTP服务,是无法支持平滑升级(优雅重启)的,本文将探讨如何解决该问题。 一、平滑升级(优雅重启)的一般思路 一般情况下,要实现平滑

Golang服务平滑重启

与重载配置相同的是我们也需要通过信号来通知server重启,但关键在于平滑重启,如果只是简单的重启,只需要kill掉,然后再拉起即可。平滑重启意味着server升级的时候可以不用停止业务。 我们先来看下Github上有没有相应的库解决这个问题,然后找到了如下三个库: facebookgo/grace - Graceful restart & zero downtime deploy for G

图片识别 中图片压缩和放大算法,最近邻插值,双线性插值

由于在神经网络中,输入的张量大小必须相同,但是图片大小不一定相同,我们需要对图片进行压缩和放大。     图像的缩放很好理解,就是图像的放大和缩小。传统的绘画工具中,有一种叫做“放大尺”的绘画工具,画家常用它来放大图画。当然,在计算机上,我们不 再需要用放大尺去放大或缩小图像了,把这个工作交给程序来完成就可以了。下面就来讲讲计算机怎么来放大缩小图象;在本文中,我们所说的图像都是指点阵图, 也

【CSS渐变】背景中的百分比:深入理解`linear-gradient`,进度条填充

在现代网页设计中,CSS渐变是一种非常流行的视觉效果,它为网页背景或元素添加了深度和动态感。linear-gradient函数是实现线性渐变的关键工具,它允许我们创建从一种颜色平滑过渡到另一种颜色的视觉效果。在本篇博客中,我们将深入探讨linear-gradient函数中的百分比值,特别是像#C3002F 50%, #e8e8e8 0这样的用法,以及它们如何影响渐变效果。 什么是linear-g

机器学习:opencv图像识别--图片运算、边界、阈值处理、平滑处理

目录 一、图片运算 1.加法 1.+ 2.add 3.加权相加 2.减法 二、图片边界 三、图像阈值处理 四、图像平滑处理 1.生成椒盐噪声 2.滤波器 1.均值滤波 2.方框滤波 3.高斯滤波 4.中值滤波 一、图片运算 1.加法 1.+ 直接将图片上每个像素点的值加上给定值或者两张图片的值相加相加之后超过255的,对256进行取模 import

如何从ActiveMQ平滑迁移到Kafka?

参考视频教程:    **python进阶训练营  ** 直入主题,不讨论为什么迁移,直接谈迁移方案。 既然是从AMQ(AtiveMQ的简称)迁移到kafka,那么迁移过程中肯定需要做到平滑迁移:对于业务没有影响,对于上下游系统没有依赖。由于系统一般会和多个上游,多个下游通过MQ中间件保持依赖关系,迁移的过程中,肯定要做到各个系统上线没有任何依赖。打个比方订单系统发送topic,会