自然语言处理=======python利用word2vec实现计算词语相似度【gensim实现】

本文主要是介绍自然语言处理=======python利用word2vec实现计算词语相似度【gensim实现】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

💥实验目的

🚀1、要利用已训练过的词向量模型进行词语相似度计算,实验中采用的词向量模型已事先通过训练获取的。
🚀2、于数据采用的是 2020 年特殊年份的数据,“疫情”是主要 话题。
🚀3、在计算词语之间的相似度时,采用的词语与“疫情”相关



💥实验内容

🚀1、加载已训练的词向量模型,直接调用 models.word2vec.Word2Vec.load 加载模型 wiki.model。
🚀2、计算多种形式的词语相似度
🚀3、model 计算不同方法下的词语相似度

**



💥实验步骤

**
🚀1、加载模型,获得某个词的词向量
代码:

# TODO                鸟欲高飞,必先展翅
# TODO                 向前的人 :Jhonimport warningswarnings.filterwarnings('ignore')
from gensim import modelsmodel = models.word2vec.Word2Vec.load('wiki.model')# TODO  步骤2.1  todo:获取某个词对应的词向量,了解词向量
word = '疫情' #注意:词库里面要有这个词,否则会报错
vector = model.wv[word] #获取单词的词向量
print('{}的词向量为:\n{}'.format(word,vector))#  print(vector.shape())print(len(vector))
print("-"*66)

截图:
在这里插入图片描述
由上面的代码我们可以得出和疫情相关的100个词的相似度。我们可以发现有的相似度大于80%,但有的却是负相关。Ok,下面我们来使用wv.similarity计算两个词语的余弦相似度


🚀2、计算两个词语之间的相似度

# TODO                鸟欲高飞,必先展翅
# TODO                 向前的人 :Jhon
import warnings
warnings.filterwarnings('ignore')
from gensim import models
model = models.word2vec.Word2Vec.load('wiki.model')
# TODO  步骤2.1  todo:获取某个词对应的词向量,了解词向量
word = '疫情' #注意:词库里面要有这个词,否则会报错
vector = model.wv[word] #获取单词的词向量
print('{}的词向量为:\n{}'.format(word,vector))
print(len(vector))
print("-"*66)
# TODO  步骤2.2 todo:使用wv.similarity计算两个词语的余弦相似度
word1 = '疫情'
word2 = '新冠'
distance = model.wv.similarity(word1,word2)
print('%s与%s的相似度为:%.4f'%(word1,word2,distance))

截图:
在这里插入图片描述
可以得出疫情与新冠的相似度为:0.8392这个结论。所以当出现疫情的时候我们就会不加思考的想到新冠。


🚀3、使用wv.n_similarity计算两个list之间的相似度

代码:
import warnings
warnings.filterwarnings('ignore')
from gensim import models
model = models.word2vec.Word2Vec.load('wiki.model')
# TODO  步骤2.3  使用wv.n_similarity计算两个list之间的相似度,返回单个值
# TODO  可以考察两个句子(先进行分词)之间的相似度
words_list1 = ['电脑', '现在', '不贵']
words_list2 = ['计算机', '便宜']
list_distant=model.wv.n_similarity(words_list1,words_list2)
print("%s与%s相似度为:%.4f" % (words_list1, words_list2, list_distant))

截图:
在这里插入图片描述

由上面的model模型中的wv.n_similarity计算两个list之间的相似度,[‘电脑’, ‘现在’, ‘不贵’]和[‘计算机’, ‘便宜’]之间的相似度为0.8281,很高的相似度了,与实际相符。



🚀4、计算与一个词语最相似的前topn个词语

代码:

# TODO  步骤2.4 是同wv.most_similar 计算与某个词语最相似的词语
#  步骤2.4.1  使用要搜索的词和topn参数,计算与一个词语最相似的前topn个词语
top_n=8
word="疫情"
model_word=model.wv.most_similar(word,topn=top_n)
print('\n文本字典中与\"{}\"最相似的前{}个词语依次是'.format(word,top_n))
print([{"词语":item[0],"相似度":"%.5f"%item[1]} for item in model.wv.most_similar(word,topn=top_n)])

截图:
在这里插入图片描述

我们可以发现和疫情最相似的词语是冠状病毒。其次是病疫情,这应该是jieba分词的错误,第三个是新冠,和实际相符。


🚀5、计算其他形式的词语相似度

~👀5.1、最相似的五个词

代码:

list_1 = ['中国', '华盛顿']
list_2 = ['北京']
topn = 5
model_word =model.wv.most_similar(positive=list_1,negative=list_2,topn=topn)
print('\n与\"{}---{}+{}\"最相似的前5个词语为'.format(list_1[0],list_2[0],list_1[1],topn))
for item in model_word:print(item[0],'%.4f'%item[1])

截图:
在这里插入图片描述

我们可以发现还是挺准的,说明这个模型还是挺成功的。达到预期效果。

~👀5.2、wv.doesnt_match 找出列表中不属于同一类的词语**

代码:

word_list=['北京','上海','广州','纽约']
Not_need_country=model.wv.doesnt_match(word_list)
print(r'{}中不属于同一类的词语为:{}'.format(word_list,Not_need_country))

截图:
在这里插入图片描述

我们可以发现模型中的wv的doesn’t_match方法找到列表国家中不是同一类的国家。

💥实验小结

我们计算其他形式的词语相似度,主要应用 model 的 most_similar 和 doesnt_match 方法来完成它。利用维基百科训练出来的模型效果还是比较理想的,可以计算出多种形式下的词语相似度。由于已训练的词向量模型采用的是 2020 年 8 月 5 日中文维基百科数据语 料,2020 年是较为的特殊年份,“疫情”是主要话题,因此在计算“疫情” 与“新冠”之间的相似度,其值约为 0.839;与疫情最相似的 8 个词语中 均符合认知但是“电脑 现在 不贵”与“计算机 便宜”的相似度为 0.8281,按照认知, 这两句话的相似度应该能达到 0.9 以上。综上可得模型结果依赖于模型采用的语料库通用性较差,而且计算相似度的词语必须都存在模型训练前的训练数据中,不然会出现所计算相似的的词语不存在模型中之类的报错。所以,这个模型还有缺陷,但是这是固性问题,毕竟就是我们要判断两者有没有关系,也要通过大脑接受一些文本信息进行判断,只不过这个过程你们忽视而已。

有问题可以评论区打出来,或者私聊也可以的







觉得有用的可以给个三连,关注一波!!!带你了解更多的自然语言处理小知识

这篇关于自然语言处理=======python利用word2vec实现计算词语相似度【gensim实现】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/277411

相关文章

Django开发时如何避免频繁发送短信验证码(python图文代码)

《Django开发时如何避免频繁发送短信验证码(python图文代码)》Django开发时,为防止频繁发送验证码,后端需用Redis限制请求频率,结合管道技术提升效率,通过生产者消费者模式解耦业务逻辑... 目录避免频繁发送 验证码1. www.chinasem.cn避免频繁发送 验证码逻辑分析2. 避免频繁

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

精选20个好玩又实用的的Python实战项目(有图文代码)

《精选20个好玩又实用的的Python实战项目(有图文代码)》文章介绍了20个实用Python项目,涵盖游戏开发、工具应用、图像处理、机器学习等,使用Tkinter、PIL、OpenCV、Kivy等库... 目录① 猜字游戏② 闹钟③ 骰子模拟器④ 二维码⑤ 语言检测⑥ 加密和解密⑦ URL缩短⑧ 音乐播放

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买