word2vec 两个模型,两个加速方法负采样加速Skip-gram模型层序Softmax加速CBOW模型 item2vec 双塔模型 (DSSM双塔模型)

本文主要是介绍word2vec 两个模型,两个加速方法负采样加速Skip-gram模型层序Softmax加速CBOW模型 item2vec 双塔模型 (DSSM双塔模型)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

word2vec

word2vec笔记和实现

理解 Word2Vec 之 Skip-Gram 模型

上面这两个链接能让你彻底明白word2vec,不要搞什么公式,看完也是不知所云,也没说到本质.

目前用的比较多的都是Skip-gram模型

Google 于 2013 年开源推出的一个用于获取 word vector 的工具包（word2vec），并且简单的介绍了其中的两个训练模型（Skip-gram，CBOW），以及两种加速的方法（Hierarchical Softmax，Negative Sampling）

学习word2vec的skip-gram实现，除了skip-gram模型还有CBOW模型。
Skip-gram模式是根据中间词，预测前后词，CBOW模型刚好相反，根据前后的词，预测中间词。

那么什么是中间词呢？什么样的词才叫做前后词呢？

首先，我们需要定义一个窗口大小，在窗口里面的词，我们才有中间词和前后词的定义。一般这个窗口大小在5-10之间。
举个例子，我们设置窗口大小（window size）为2：

1|The|quick|brown|fox|jump|

那么，brown就是我们的中间词，The、quick、fox、jump就是前后词。

我们知道，word2vec实际上就是一个神经网络（后面会解释），那么这样的数据，我们是以什么样的格式用来训练的呢？

可以看到，我们总是以中间词放在第一个位置，然后跟着我们的前后相邻词。可以看到，每一对词都是一个输入和一个输出组成的数据对(X,Y)。其中，X是feature，Y是label。

所以，我们训练模型之前，需要根据语料，整理出所有的像上面这样的输入数据用来训练

word2vec是一个神经网络

word2vec是一个简单的神经网络，有以下几个层组成：

１个输入层
1个隐藏层
1个输出层

输入层输入的就是上面我们说的数据对的数字表示，输出到隐藏层。
隐藏层的神经网络单元的数量，其实就是我们所说的embedding size，只有为什么，我们后面简单计算一下就知道。需要注意的是，我们的隐藏层后面不需要使用激活函数。
输出层，我们使用softmax操作，得到每一个预测结果的概率。

负采样

回到之前的问题：这些负样本是怎么影响损失的呢？

答案很简单：经过softmax之后，会得到正负样本的概率分布，而负样本对应的标签是0，所以计算出来的loss，在进行反向传播的时候，会尽量地使这些负样本的概率分布趋于0，相反的，会让正样本的概率分布趋于1。

vocabulary的大小决定了我们的Skip-Gram神经网络将会拥有大规模的权重矩阵，所有的这些权重需要通过我们数以亿计的训练样本来进行调整，这是非常消耗计算资源的，并且实际中训练起来会非常慢。

负采样（negative sampling）解决了这个问题，它是用来提高训练速度并且改善所得到词向量的质量的一种方法。不同于原本每个训练样本更新所有的权重，负采样每次让一个训练样本仅仅更新一小部分的权重，这样就会降低梯度下降过程中的计算量。

当我们用训练样本 ( input word: "fox"，output word: "quick") 来训练我们的神经网络时，“ fox”和“quick”都是经过one-hot编码的。如果我们的vocabulary大小为10000时，在输出层，我们期望对应“quick”单词的那个神经元结点输出1，其余9999个都应该输出0。在这里，这9999个我们期望输出为0的神经元结点所对应的单词我们称为“negative” word。

当使用负采样时，我们将随机选择一小部分的negative words（比如选5个negative words）来更新对应的权重。我们也会对我们的“positive” word进行权重更新（在我们上面的例子中，这个单词指的是”quick“）。

在论文中，作者指出指出对于小规模数据集，选择5-20个negative words会比较好，对于大规模数据集可以仅选择2-5个negative words。

回忆一下我们的隐层-输出层拥有300 x 10000的权重矩阵。如果使用了负采样的方法我们仅仅去更新我们的positive word-“quick”的和我们选择的其他5个negative words的结点对应的权重，共计6个输出神经元，相当于每次只更新 [公式] 个权重。对于3百万的权重来说，相当于只计算了0.06%的权重，这样计算效率就大幅度提高。

我们最终要的是隐层到输出层的权重矩阵作为每个词的embedding向量

item2vec

论文把Word2vec的Skipgram with Negative Sampling (SGNS)的算法思路迁移到基于物品的协同过滤(item-based CF)上，以物品的共现性作为自然语言中的上下文关系，构建神经网络学习出物品在隐空间的向量表示

MovieTaster-使用Item2Vec做电影推荐

https://blog.csdn.net/u011239443/article/details/82110770

MovieTaster-Open

https://github.com/lujiaying/MovieTaster-Open

目前的实现都是基于skip-gram，给定中心词计算上下文的概率，最后以每个词的中心词向量作为该词的向量表征

基于 Gensim 的 Word2Vec 实践（gensim自然语言python库）

https://www.cnblogs.com/pinard/p/7278324.html

用gensim学习word2vec

https://www.cnblogs.com/pinard/p/7278324.html

spark word2vec

spark实现：使用skip-gram模型，层序softmax加速训练

https://www.maiyewang.com/?p=14320

http://qiancy.com/2016/08/17/word2vec-hierarchical-softmax/

霍夫曼编码

https://zh.wikipedia.org/wiki/%E9%9C%8D%E5%A4%AB%E6%9B%BC%E7%BC%96%E7%A0%81

预处理：

如果是文本就分类

1：获取词典

2：子采样，去掉高频词。可以降低词典大小，以及提升低频次的表示精度

这篇关于word2vec 两个模型,两个加速方法负采样加速Skip-gram模型层序Softmax加速CBOW模型 item2vec 双塔模型 (DSSM双塔模型)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

word2vec 两个模型,两个加速方法负采样加速Skip-gram模型层序Softmax加速CBOW模型 item2vec 双塔模型 (DSSM双塔模型)

推荐领域(DSSM双塔模型):

word2vec

word2vec是一个神经网络

负采样

item2vec

MovieTaster-使用Item2Vec做电影推荐

https://blog.csdn.net/u011239443/article/details/82110770

MovieTaster-Open

目前的实现都是基于skip-gram，给定中心词计算上下文的概率，最后以每个词的中心词向量作为该词的向量表征

基于 Gensim 的 Word2Vec 实践（gensim自然语言python库）

用gensim学习word2vec

相关文章

Java中流式并行操作parallelStream的原理和使用方法

MySQL数据库双机热备的配置方法详解

Python版本信息获取方法详解与实战

Python实现字典转字符串的五种方法

Python版本与package版本兼容性检查方法总结

Linux云服务器手动配置DNS的方法步骤

JavaScript对象转数组的三种方法实现

SpringBoot中ResponseEntity的使用方法举例详解

java中判断json key是否存在的几种方法

java中ssh2执行多条命令的四种方法

word2vec 两个模型,两个加速方法 负采样加速Skip-gram模型 层序Softmax加速CBOW模型 item2vec 双塔模型 (DSSM双塔模型)

推荐领域(DSSM双塔模型):

word2vec

word2vec是一个神经网络

负采样

item2vec

MovieTaster-使用Item2Vec做电影推荐

https://blog.csdn.net/u011239443/article/details/82110770

MovieTaster-Open

目前的实现都是基于skip-gram，给定中心词计算上下文的概率，最后以每个词的中心词向量作为该词的向量表征

基于 Gensim 的 Word2Vec 实践（gensim自然语言python库）

用gensim学习word2vec

相关文章

word2vec 两个模型,两个加速方法负采样加速Skip-gram模型层序Softmax加速CBOW模型 item2vec 双塔模型 (DSSM双塔模型)