本文主要是介绍120G+训练好的word2vec模型(中文词向量),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用120G+语料训练好的word2vec模型。 训练语料:
- 百度百科800w+条,20G+
- 搜狐新闻400w+条,12G+(数据下载链接见其它博文)
- 小说:90G左右
模型参数:
- window=5
- min_count=5
- size=64
- ps:其它参数见gensim库,执行代码为:Word2Vec(sentence, window=5, min_count=5,size=64, workers=4)
其它相关:
- 分词词典使用了130w+词典。分词代码:jieba.lcut(sentence),默认使用了HMM识别新词;
- 剔除了所有非中文字符;
- 最终得到的词典大小为6115353;
- 目前只跑了64维的结果,后期更新128维词向量;
- 模型格式有两种bin和model;
下载链接:链接: https://pan.baidu.com/s/1eUgu8Cy 密码: 4is8
本文转自 https://weibo.com/p/23041816d74e01f0102x77v#_loginLayer_1515659232344
这篇关于120G+训练好的word2vec模型(中文词向量)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!