【Python机器学习】NLP词频背后的含义——隐性语义分析

2024-08-29 21:20

本文主要是介绍【Python机器学习】NLP词频背后的含义——隐性语义分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

隐性语义分析基于最古老和最常用的降维技术——奇异值分解SVD)。SVD将一个矩阵分解成3个方阵,其中一个是对角矩阵。

SVD的一个应用是求逆矩阵。一个矩阵可以分解成3个最简单的方阵,然后对这些方阵求转置后再把它们相乘,就得到了原始矩阵的逆矩阵。它为我们提供了一个对大型复杂矩阵求逆的捷径。SVD适用于桁架结构的应力和应变分析等机械工程问题,它对电气工程中的电路分析也很有用,它甚至在数据科学中被用于基于行为的推荐引擎,其与基于内容的NLP推荐引擎一起运行。

利用SVD,LSA可以将TF-IDF词项-文档矩阵分解为3个更简单的矩阵。这3个矩阵可以相乘得到原始矩阵,得到的原始矩阵不会有任何改变。但是,经过SVD后得到的这3个更简单的矩阵揭示了原始TF-IDF矩阵的一些性质,我们可以利用这些性质来简化原始矩阵。我们可以在将这些矩阵相乘之前对它们进行截断处理(忽略一些行和列),这将减少在向量空间模型中需要处理的维数。

这些截断的矩阵相乘并不能得到和原始TF-IDF矩阵完全一样的矩阵,然而它们却给出了一个更好的矩阵,文档的新表示包含了这些文档的本质,即隐性语义。这就是SVD被用于其他领域(如压缩)的原因。它能捕捉数据集的本质,并且忽略噪声。JPEG图像大小是原始位图的十分之一,但仍然包含原始图像的所有信息。

当在自然语言处理中一这种方式使用SVD时,我们将其称为隐性语义分析(LSA)。LSA揭示了被隐藏并等待被发现的词的语义或意义。

隐性语义分析是一种数学上的技术,用于寻找任意一组NLP向量进行最佳线性变换(旋转和拉伸)的方法,这些NLP向量包括TF-IDF向量或词袋向量。对很多应用来说,最好的变换方法是将坐标轴(维度)对齐到新向量中,使其在词频上具有最大的散度或方差。然后,我们可以在新的向量空间中去掉那些对不同文档向量的方差贡献不大的维度。

这种使用SVD的方法称为截断的奇异值分解截断的SVD)。在图像处理和图像压缩领域,叫做主成分分析(PCA)。自然语言文档上的LSA等价于TF-IDF向量上的PCA。

LSA使用SVD查找导致数据中方差最大的词的组合,我们可以旋转TF-IDF向量,使旋转后的向量的新维度(基向量)与这些最大方差方向保持一致。“基向量”是新向量空间的坐标轴,与3个六维主题向量类似。每个维度(轴)都变成了词频的组合,而不是单个词频,因此我们可以把这些维度看作是构成语料库中各个“主题”的词的加权组合。

机器不能理解词的组合所表达的含义,只能理解这些词是在一起的。当它看到像“dog”、“cat”这样的词总是一起出现时,就会把它们放到一个主题中。它并不知道这样的主题可能是关于“pets”的。这个主题可能包含很多词,包括“domesticated”这种意义完全相反的词。如果它们经常一起出现在同一篇文档中,那么LSA会给它们赋予相同主题下的高分。这取决于人们看哪些词在每个主题中有很高的权重,并给它们起名字。

但是,我们并不需要通过为主题起名字来使用它们,我们可以直接用这些主题向量进行数学运算,就像在TF-IDF向量上做的一样,还可以对这些主题向量进行加减运算并估算文档之间的相似度。这里是基于主题向量而不只是词频向量进行计算。

LSA还提供了另一条有用的信息。类似于TF-IDF的IDF部分,LSA告诉我们向量中的哪些维度对文档的语义(含义)很重要。于是,我们可以丢弃文档之间方差最小的维度(主题)。对任何机器学习算法来说,这些小方差的主题通常是干扰因素与噪声。如果每篇文档都有大致相同含量的某个主题,而该主题却不能帮我们区分这些文档,那么就可以删除这个主题。这样有助于泛化向量表示,因此当将LSA用于流水线上从没见过的新文档时,即使这篇文档来自完全不同的上下文,它也会工作的很好。

LSA降维的效果很好,这是因为它在某种意义上是最优的。它会保留尽可能多的信息。它不丢弃任何词,而只丢弃某些维度(主题)。

LSA将更多的意义压缩到更少的维度中。我们只需要保留高方差维度,即语料库以各种方式(高方差)讨论的主要主题。留下来的每个维度都称为“主题”,包含所有捕捉到的词的某种加权组合。

思想实验的实际实现

对于一个小规模的短文档语料库,只需要几个维度(主题)就可以捕捉这些文档的语义:

from nlpia.book.examples.ch04_catdog_lsa_3x6x16 import word_topic_vectors
print(word_topic_vectors.T.round(1))

上述主题-词矩阵中的每列是词的主题向量或者每个词对应的主题向量。该向量中的每个元素就像情感分析模型中所使用的词得分。这些向量可以用来表示任何机器学习流水线中词的含义,它们有时也被成为词的语义向量。文档中的每个词的主题向量可以相加从而得到该文档的主题向量。

上述SVD创建的主题向量类似于从人想象中提取出的主题向量。这里的第一个主题标注为top0。top0向量中apple和NYC的权重更大,但是top0在这里的LSA主题排序中排名第一。LSA根据主题的重要度,即它们所代表数据集的信息量或方差大小,对主题进行排序。top0对应的维度方向和数据集中方差最大的轴保持一致。我们注意到关于城市主题的方差比较大,有些句子会使用UYC和apple,而另一些句子可能根本不会使用这些词。

LSA算法还发现,对于要捕捉这篇文档本质而言,“love”是比“animalness”更重要的主题。最后一个主题top2,似乎是关于“dog”的,也混合了一点“love”。“cat”这个词被归为城市反面主题,这是因为“cat”和“city”并不经常放在一起。

文字游戏

Awas!Awas!Tom is behind you!Run!

上面这个例子,Tom其实是一只猩猩,awas在印尼语中是当心/危险!

在上面这样的短文档且有生僻词上时,只把注意力集中在语言上下文及词本身,我们经常可以把所知道的很多词的意义或语义转移到不知道的词上。

机器从零开始,没有一种可以基于的语言。因此,它们需要的不仅仅是一个简单的例子,而是需要更多信息来理解词的意义。就像刚才的例子,机器使用LSA后可以很好的处理这一问题,即使面对的只是随机提取的、包含至少几个大家感兴趣的词的文档。

像上面这样较短的文档比像文章、书籍这样的大型文档上更适合上述过程,这是因为一个词的意思通常与包含它的句子中的词的意思紧密相关。但是,对于较长文档中相隔较远的词,情况就不一样了。

LSA是一种通过给机器一些样例来训练机器识别词和短语的意义(语义)的方法。和人类一样,机器从词的示例用法中学习语义要比从字典定义中学习更快也更容易。从示例用法中提取词的含义所需的逻辑推理,要比阅读字典中词的所有可能定义和形式然后将其编码到某个逻辑中所需的逻辑推理少。

在LSA中提取出词的含义的数学方法称为奇异值分解(SVD)。SVD来自线性代数,是LSA用来创建类似上面的词-主题矩阵中的向量的数学工具。

这篇关于【Python机器学习】NLP词频背后的含义——隐性语义分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1118915

相关文章

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

一文全面详解Python变量作用域

《一文全面详解Python变量作用域》变量作用域是Python中非常重要的概念,它决定了在哪里可以访问变量,下面我将用通俗易懂的方式,结合代码示例和图表,带你全面了解Python变量作用域,需要的朋友... 目录一、什么是变量作用域?二、python的四种作用域作用域查找顺序图示三、各作用域详解1. 局部作

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Python使用smtplib库开发一个邮件自动发送工具

《Python使用smtplib库开发一个邮件自动发送工具》在现代软件开发中,自动化邮件发送是一个非常实用的功能,无论是系统通知、营销邮件、还是日常工作报告,Python的smtplib库都能帮助我们... 目录代码实现与知识点解析1. 导入必要的库2. 配置邮件服务器参数3. 创建邮件发送类4. 实现邮件

基于Python构建一个高效词汇表

《基于Python构建一个高效词汇表》在自然语言处理(NLP)领域,构建高效的词汇表是文本预处理的关键步骤,本文将解析一个使用Python实现的n-gram词频统计工具,感兴趣的可以了解下... 目录一、项目背景与目标1.1 技术需求1.2 核心技术栈二、核心代码解析2.1 数据处理函数2.2 数据处理流程

github打不开的问题分析及解决

《github打不开的问题分析及解决》:本文主要介绍github打不开的问题分析及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、找到github.com域名解析的ip地址二、找到github.global.ssl.fastly.net网址解析的ip地址三

Python远程控制MySQL的完整指南

《Python远程控制MySQL的完整指南》MySQL是最流行的关系型数据库之一,Python通过多种方式可以与MySQL进行交互,下面小编就为大家详细介绍一下Python操作MySQL的常用方法和最... 目录1. 准备工作2. 连接mysql数据库使用mysql-connector使用PyMySQL3.