使用Gensim库来实现Word2Vec

2023-12-18 19:30

本文主要是介绍使用Gensim库来实现Word2Vec,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Gensim

Gensim是一个开源库,用于无监督的统计建模和自然语言处理,用Python和Cython实现的

 

 

Gensim库来实现Word2Vec

Word2Vec被认为是自然语言处理(NLP)领域中最大、最新的突破之一。其的概念简单,优雅,(相对)容易掌握。Google一下就会找到一堆关于如何使用诸如Gensim和TensorFlow的库来调用Word2Vec方法的结果


Word2Vec的目标是生成带有语义的单词的向量表示,用于进一步的NLP任务。每个单词向量通常有几百个维度,语料库中每个唯一的单词在空间中被分配一个向量。例如,单词“happy”可以表示为4维向量[0.24、0.45、0.11、0.49],“sad”具有向量[0.88、0.78、0.45、0.91]。

这种从单词到向量的转换也被称为单词嵌入(word embedding)。这种转换的原因是机器学习算法可以对数字(在向量中的)而不是单词进行线性代数运算。

 

首先解压数据,读入到list里面

import gzip
import gensim
import logging#logging格式设置
logging.basicConfig(format="", level=logging.INFO)#解压我们的数据
data_file = "reviews_data.txt.gz"with gzip.open(data_file,'rb') as f:for i, line in enumerate(f):print(line)break#--------------下一步需要把读的数据变为gensim的输入------------------------#把gzip文件的内容读入到list
def read_input(input_file):logging.info("reading file {0}...this may take a while".format(input_file))with gzip.open(input_file,'rb') as f:for i, line in enumerate(f):if(i%10000 == 0):logging.info("read {0} reviews".format(i))#做预处理,每个review返回一个单词列表yield gensim.utils.simple_preprocess(line)documents = list(read_input((data_file)))
logging.info("Done reading data file")
print(documents)

 

训练model

import gzip
import gensim
import logging#logging格式设置
logging.basicConfig(format="", level=logging.INFO)#解压我们的数据
data_file = "reviews_data.txt.gz"with gzip.open(data_file,'rb') as f:for i, line in enumerate(f):print(line)break#--------------下一步需要把读的数据变为gensim的输入------------------------#把gzip文件的内容读入到list
def read_input(input_file):logging.info("reading file {0}...this may take a while".format(input_file))with gzip.open(input_file,'rb') as f:for i, line in enumerate(f):if(i%10000 == 0):logging.info("read {0} reviews".format(i))#做预处理,每个review返回一个单词列表yield gensim.utils.simple_preprocess(line)documents = list(read_input((data_file)))
logging.info("Done reading data file")
print(documents)#--------------训练我们的model-------------model = gensim.models.Word2Vec(documents, size=150,window=10, min_count=2,workers=10)#不加这句,光上面那句也能训练,这句是给训练的时候规定一些参数,比如epochs,这里规定了10,如果不规定默认是5的
model.train(documents,total_examples=len(documents), epochs=10)

 

 

我们可以通过训练好的模型做什么呢?

我们要做的是,给出一个之前语料中没有出现的词,然后能够在语料中找一个最相近的

                         能够计算两个单词之间的相似度

                         能够在几个单词中找出意思和其他单词相差较大的单词来

找和polite最相近的6个词

找和france最相近的6个词

找和shocked最相近的6个词

寻找床上用品相关的词

计算两个单词之间的相似度

在几个单词中找到意思和其他单词相差较大的单词,即the odd one

 

 

 

总程序

import gzip
import gensim
import logging#logging格式设置
logging.basicConfig(format="", level=logging.INFO)#解压我们的数据
data_file = "reviews_data.txt.gz"with gzip.open(data_file,'rb') as f:for i, line in enumerate(f):print(line)break#--------------下一步需要把读的数据变为gensim的输入------------------------#把gzip文件的内容读入到list
def read_input(input_file):logging.info("reading file {0}...this may take a while".format(input_file))with gzip.open(input_file,'rb') as f:for i, line in enumerate(f):if(i%10000 == 0):logging.info("read {0} reviews".format(i))#做预处理,每个review返回一个单词列表yield gensim.utils.simple_preprocess(line)documents = list(read_input((data_file)))
logging.info("Done reading data file")
# print(documents)#--------------训练我们的model-------------model = gensim.models.Word2Vec(documents, size=150,window=10, min_count=2,workers=10)#不加这句,光上面那句也能训练,这句是给训练的时候规定一些参数,比如epochs,这里规定了10,如果不规定默认是5的
model.train(documents,total_examples=len(documents), epochs=10)#------------验证我们的结果--------------------
w1 = "dirty"
print(model.wv.most_similar(positive=w1))# look up top 6 words similar to 'polite'
w1 = ["polite"]
print(model.wv.most_similar (positive=w1,topn=6))# look up top 6 words similar to 'france'
w1 = ["france"]
print(model.wv.most_similar (positive=w1,topn=6))# look up top 6 words similar to 'shocked'
w1 = ["shocked"]
print(model.wv.most_similar (positive=w1,topn=6))# get everything related to stuff on the bed
w1 = ["bed",'sheet','pillow']
w2 = ['couch']
print(model.wv.most_similar (positive=w1,negative=w2,topn=10))# similarity between two different words
print(model.wv.similarity(w1="dirty",w2="smelly"))# similarity between two identical words
print(model.wv.similarity(w1="dirty",w2="dirty"))# similarity between two unrelated words
print(model.wv.similarity(w1="dirty",w2="clean"))#Find the odd one out# Which one is the odd one out in this list?
print(model.wv.doesnt_match(["cat","dog","france"]))# Which one is the odd one out in this list?
print(model.wv.doesnt_match(["bed","pillow","duvet","shower"]))

 

这篇关于使用Gensim库来实现Word2Vec的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/509519

相关文章

Flutter实现文字镂空效果的详细步骤

《Flutter实现文字镂空效果的详细步骤》:本文主要介绍如何使用Flutter实现文字镂空效果,包括创建基础应用结构、实现自定义绘制器、构建UI界面以及实现颜色选择按钮等步骤,并详细解析了混合模... 目录引言实现原理开始实现步骤1:创建基础应用结构步骤2:创建主屏幕步骤3:实现自定义绘制器步骤4:构建U

使用Python创建一个功能完整的Windows风格计算器程序

《使用Python创建一个功能完整的Windows风格计算器程序》:本文主要介绍如何使用Python和Tkinter创建一个功能完整的Windows风格计算器程序,包括基本运算、高级科学计算(如三... 目录python实现Windows系统计算器程序(含高级功能)1. 使用Tkinter实现基础计算器2.

SpringBoot中四种AOP实战应用场景及代码实现

《SpringBoot中四种AOP实战应用场景及代码实现》面向切面编程(AOP)是Spring框架的核心功能之一,它通过预编译和运行期动态代理实现程序功能的统一维护,在SpringBoot应用中,AO... 目录引言场景一:日志记录与性能监控业务需求实现方案使用示例扩展:MDC实现请求跟踪场景二:权限控制与

Android实现定时任务的几种方式汇总(附源码)

《Android实现定时任务的几种方式汇总(附源码)》在Android应用中,定时任务(ScheduledTask)的需求几乎无处不在:从定时刷新数据、定时备份、定时推送通知,到夜间静默下载、循环执行... 目录一、项目介绍1. 背景与意义二、相关基础知识与系统约束三、方案一:Handler.postDel

在.NET平台使用C#为PDF添加各种类型的表单域的方法

《在.NET平台使用C#为PDF添加各种类型的表单域的方法》在日常办公系统开发中,涉及PDF处理相关的开发时,生成可填写的PDF表单是一种常见需求,与静态PDF不同,带有**表单域的文档支持用户直接在... 目录引言使用 PdfTextBoxField 添加文本输入域使用 PdfComboBoxField

Git可视化管理工具(SourceTree)使用操作大全经典

《Git可视化管理工具(SourceTree)使用操作大全经典》本文详细介绍了SourceTree作为Git可视化管理工具的常用操作,包括连接远程仓库、添加SSH密钥、克隆仓库、设置默认项目目录、代码... 目录前言:连接Gitee or github,获取代码:在SourceTree中添加SSH密钥:Cl

Python中模块graphviz使用入门

《Python中模块graphviz使用入门》graphviz是一个用于创建和操作图形的Python库,本文主要介绍了Python中模块graphviz使用入门,具有一定的参考价值,感兴趣的可以了解一... 目录1.安装2. 基本用法2.1 输出图像格式2.2 图像style设置2.3 属性2.4 子图和聚

windows和Linux使用命令行计算文件的MD5值

《windows和Linux使用命令行计算文件的MD5值》在Windows和Linux系统中,您可以使用命令行(终端或命令提示符)来计算文件的MD5值,文章介绍了在Windows和Linux/macO... 目录在Windows上:在linux或MACOS上:总结在Windows上:可以使用certuti

CentOS和Ubuntu系统使用shell脚本创建用户和设置密码

《CentOS和Ubuntu系统使用shell脚本创建用户和设置密码》在Linux系统中,你可以使用useradd命令来创建新用户,使用echo和chpasswd命令来设置密码,本文写了一个shell... 在linux系统中,你可以使用useradd命令来创建新用户,使用echo和chpasswd命令来设

Python使用Matplotlib绘制3D曲面图详解

《Python使用Matplotlib绘制3D曲面图详解》:本文主要介绍Python使用Matplotlib绘制3D曲面图,在Python中,使用Matplotlib库绘制3D曲面图可以通过mpl... 目录准备工作绘制简单的 3D 曲面图绘制 3D 曲面图添加线框和透明度控制图形视角Matplotlib