【如何用大语言模型快速深度学习系列】从word2vec、SVD到GloVe

本文主要是介绍【如何用大语言模型快速深度学习系列】从word2vec、SVD到GloVe，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

三天热度果然名不虚传，写作的效率有所下降，但是只要坚持二十一天就能养成习惯啦！冲冲冲！
又被推进每日值得看啦！那我加油，尽量补充点内容，使其更加精彩！

上一节回顾文章链接

在上一章我们将词的概念，通过n-gram组合成了n个词的切片，终于将前后词之间建立了一个联系，可以根据词的关系，逐步看见句子之间的相似度，以及根据高频词能够判断文章之间的关联程度。

上一节todo

相关代码未补充完整预计明后两天停更新新内容，将前面进行代码补全。
编辑距离忘了补充。
jieba的详细介绍以及如何自己制作词典没有介绍。

写在第四节和第五节前面的引入部分

one-hot向量表示文本的不足之处

one-hot太稀疏
回到1-gram和2-gram的例子：

我喜欢看电影
用单词出现次数来表示：【“我”：1.“喜欢”：1，“看”：1，“电影”，1】
我喜欢看电影。
用2-词片段出现次数来表示：【“我喜欢”：1.“喜欢看”：1，“看电影”：1】

现在我们对“我”，“喜欢”，“看”，“电影” 进行编码，最简单的其实是我们一直以来的，按照索引，[1,0,0,0]第0个是“我”，[0,1,0,0]这是“喜欢”,而在不同的文章和规则下，比如2-gram下的，[1,0,0]表示“我喜欢”，在很长的文章里，则有数千甚至过万的词，编码格式为 [1,0,0…0]，即为one-hot编码，为此，英文采用了基础词+前缀+后缀进行编码等奇思妙想来充分利用一些“0”，但这依然很稀疏。

one-hot近义词同义词很难体现
如果按abc顺序进行排序，则“爱戴”，“尊敬”很难体现其应用场景相似相近，因为点乘永远是0。
如果按偏旁部首排序，则“抵达”和“到达”很难体现其意义相近，同理
如果按出现频率排序，按上一节tfidf，我们明白，高频词只有出现在少部分文章的时候，才具有意义，否则我们是会将其判断为停用词，即没有意义的词。
如果用哈希表和预先拥有的知识构建词典，我觉得这个想法不错，但工作量巨大。

总之，one-hot的最大优点在于简单灵活、清晰明了，对于指定的、小文本任务中，依然发挥着十分重要的作用。而为了解决稀疏问题和词之间的语义联系等，我们可以阅读第四节 word2vec 和第五节 SVD 啦！

第四节 word2vec

概念

大模型对word2Vec
这个概念写的不是很符合我的心意，我们试试inscode
inscode结果
inscode字写得多，其实就会更加全面一些，但是单从回答依然可能看的是一头雾水，因此我还是会用通俗易懂的方式理解一下概念。

理解

还是从例子引入
设x1 = 苹果， x2 = 水果 x3 ≈ 中华田园犬，x4 = 狗
由苹果与水果的关系，中华田园犬与狗的关系都是被包含关系，于是理论上我们能确定一个关系式：word2vec (x2) - word2vec(x1) =（≈） word2vec(x4) - word2vec(x3)

word2vector的目标将原本的一个词/词切片，经过编码就会变成一个低维度的向量（一个word 变成了 vector）比如有1万词，可能降低到16维，然后通过向量唯一表示该词
注：图片引用自fond_dependent的这篇博客
word2vector的向量应用这个向量可以描述词于词之间的关系，比如水果到苹果的向量之差就等于中华田园犬到狗之差。
word2vector的向量的进一步推理自然而然的，苹果换成香蕉，仍然成立
f(水果) - f(香蕉) ≈ f(狗) - f(中华田园犬) ≈ f(水果) - f(苹果)，我们发现word2vector居然完成了f(香蕉) ≈ f(苹果)，可以得到向量空间上两个向量的距离是靠近的！同时他们是唯一表示的，因此不会是等号。
关于距离与相似度 描述向量之间的距离有很多种，有多少种距离，就有更多种相似度的度量方法！

埋一个坑：做一个向量距离、相似度的整理与总结
再埋一个坑：做一个降维的方法总结，可能涉及到机器学习方法、深度学习方法

实现方法

上面是一些理论性的东西，相信有了上面四个点的例子和推理，我们能对word2vector有了一个清晰的认识，而具体如何找到这个函数f(x)，达到所需效果，现在更多会使用神经网络实现，我们可以忘记所有方法，把握两个关键点即可使用任何方法实现。

如何将10000个词字用16个维度表表示(10000和16突出的是降维程度之大)
理论上，降维的方法有很多，设置降低到目标维度如何设置，最好等等，都是根据不同的任务进行确认。
李沐的《动手学深度学习》中提供了代码视频，github代码，利用的是神经网络，然后我这两天也在尝试使用机器学习方法，然后用长短不一的数据集做一些实验进行对比，得到一些经验：
解决 f(香蕉) ≈ f(苹果)的方法：
训练数据：基于大量的文本，用词语的前后词语来判断，如1：我去上海玩耍；2：我去南京玩耍，此时，上海和南京会被判断为类似，此时通过f(上海) = f(南京) 来调整权重。由此，我们可以退而求

通过附近词预测中心词：CBOW，连续词袋模型，C指的是连续，BOW指的是词袋（第一节内容）
通过中心词预测附近的词：Skip-gram，跳元模型，Skip指的是跳，-gram指的是n-gram是一样的（第二节内容）

总结

经过这一节，我们更多是停留在概念层次。代码部分即将有详细注释版

# 详细注释版 敬请期待

第五节 SVD

第六节 GloVe

这篇关于【如何用大语言模型快速深度学习系列】从word2vec、SVD到GloVe的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

【如何用大语言模型快速深度学习系列】从word2vec、SVD到GloVe

上一节回顾文章链接

上一节todo

写在第四节和第五节前面的引入部分

one-hot向量表示文本的不足之处

总之，one-hot的最大优点在于简单灵活、清晰明了，对于指定的、小文本任务中，依然发挥着十分重要的作用。而为了解决稀疏问题和词之间的语义联系等，我们可以阅读第四节 word2vec 和第五节 SVD 啦！

第四节 word2vec

概念

理解

实现方法

总结

第五节 SVD

第六节 GloVe

相关文章

Java中Redisson 的原理深度解析

Java HashMap的底层实现原理深度解析

Java 虚拟线程的创建与使用深度解析

从基础到高级详解Go语言中错误处理的实践指南

Python函数作用域与闭包举例深度解析

使用EasyPoi快速导出Word文档功能的实现步骤

Go语言中json操作的实现

Linux五种IO模型的使用解读

python语言中的常用容器(集合)示例详解

基于Go语言开发一个 IP 归属地查询接口工具

【如何用大语言模型快速深度学习系列】从word2vec、SVD到GloVe

上一节回顾 文章链接

上一节todo

写在第四节和第五节前面的引入部分

one-hot向量表示文本的不足之处

总之，one-hot的最大优点在于简单灵活、清晰明了，对于指定的、小文本任务中，依然发挥着十分重要的作用。而为了解决稀疏问题和词之间的语义联系等，我们可以阅读第四节 word2vec 和第五节 SVD 啦！

第四节 word2vec

概念

理解

实现方法

总结

第五节 SVD

第六节 GloVe

相关文章

上一节回顾文章链接