python中文词频统计并利用词云图进行数据可视化

本文主要是介绍python中文词频统计并利用词云图进行数据可视化，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

一、前言
- 简介
二、项目简介
三、实战项目
- 实战1：中文词频统计并利用词云图进行数据可视化
- - 第一步：安装库
  - 第二步: 分析题目意思
  - 第三步:Jieba是什么
  - 第四步:Jieba常用的方法
  - 第五步: Wordcloud常用的方法
- 代码详解
- 结果

一、前言

简介

💻祝各位六一儿童节快乐，最近真的太忙了，转眼间大三就来到第二个学期，还有一学年就要毕业了;马上也要开始准备毕业设计。但是很多地方还需要进阶学习。然后这段时间也学习了很多的东西,让我也是收获颇满;但同时也认识到了自己的不足，下面我将介绍一下做的一些内容。

二、项目简介

Python数据处理、分析与应用的实现过程，以及专业技术人员所使用的基本方法和技巧，

培养自己解决Python数据处理、分析与应用过程中遇到实际问题的能力，

掌握应用Python编写程序的技术，提高学生在Python数据处理、分析与应用方面的综合应用能力。

基本的知识目前就不哆嗦了,直接实战。

三、实战项目

实战1：中文词频统计并利用词云图进行数据可视化

（1）认识jieba库和wordcloud库；

（2）利用jieba库进行中文词频统计，强调字典、列表的应用；

（3）结合词频统计结果利用wordcloud库进行词云图的可视化；

（4）程序代码存为“学号姓名a.py”，词频统计结果存为“学号姓名a.csv”，词云图存为“学号姓名a.png”；

（5）每个步骤需要运行结果截图，截图中需要加上水印，水印为自己的学号姓名。

第一步：安装库

    pip install 库名

第二步: 分析题目意思

题目需要利用jieba库和wordcloud库

首先认识一下这两个库

第三步:Jieba是什么

jieba（“结巴”）是Python中一个重要的第三方中文分词函数库，能够将一段中文文本分割成中文词语的序列。

jieba库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组。除了分词jieba还提供增加自定义中文单词的功能。

第四步:Jieba常用的方法

精确模式，将句子最精确地切开，适合文本分析；返回结果是列表类型

    import jieba  #导入库a="爱上对方过后就哭了."ls = jieba.lcut(a)print(ls)

在这里插入图片描述

全模式，把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；将字符串的所有分词可能均列出来，返回结果是列表类型，冗余性最大

    import jiebaa="爱上对方过后就哭了."ls = jieba.lcut(a,cut_all=True)print(ls)

在这里插入图片描述

搜索引擎模式，在精确模式基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

    import jiebaa="爱上对方过后就哭了."ls = jieba.lcut_for_search(a)print(ls)

在这里插入图片描述

jieba.add_word()函数，用来向jieba词库增加新的单词。

    import jiebaa="爱上对方过后就哭了."jieba.add_word("过后就哭了.")ls = jieba.lcut(a)print(ls)

在这里插入图片描述

第五步: Wordcloud常用的方法

在生成词云时，wordcloud默认会以空格或标点为分隔符对目标文本进行分词处理
根据文本中词语出现的频率等参数绘制词云绘制词云的形状，尺寸和颜色都可以设定

过多的基础知识我这就不多余的讲解，不懂得请看以前的文章，嘿嘿😊

代码详解

    import matplotlib.pyplot as pltfrom PIL import Imageimport wordcloud as wcimport jiebaimport csvimport numpy as np#排除不合法字符excludes = open("stoplist.txt", 'r+', encoding='utf-8').read()b = []i = 0while i < len(excludes) - 1:if excludes[i] not in {',', '、', '.', ' ', '\n', '\\'}:b.append(excludes[i:i + 2])i += 2else:i += 1# 打开文件counts = {}with open('Praxis.txt', mode='r', encoding='utf-8') as fp:content = fp.read()words = jieba.lcut(content)  # 精确模式，返回一个列表类型的分词结果text = " ".join(words) #文本必须以空格的方式存入# 统计词语的次数for word in words:if len(word) == 1:continueelse:rword = wordcounts[rword] = counts.get(rword, 0) + 1for word in b:print(f'word{word}')if word in counts:del counts[word]print(f'counts{counts}')items = list(counts.items())print(f'item{items}')mask = np.array(Image.open('love.png'))word_cloud = wc.WordCloud(font_path=r'C:\Windows\Fonts\simkai.ttf',background_color="#e6ebf1",mask=mask,  # 背景图片max_words=2000,  # 设置最大显示的词数max_font_size=100,  # 设置字体最大值width=500,  # 设置画布的宽度height=500,  # 设置画布的高度)  # 创建文本对象word_cloud.generate(text)  # 加载文本fn = '888888小猿.csv'with open(fn, 'w', encoding='gbk', newline='') as csvfile:  # 打开文件csvWiter = csv.writer(csvfile)  # 建立Writer对象for key in counts:csvWiter.writerow([key, counts[key]])print("数据加载完毕")plt.imshow(word_cloud)word_cloud.to_file('888888小猿.jpg')  # 保存为图片plt.show()

在这里插入图片描述