文本可视化之词云图的使用

2024-01-08 16:44

本文主要是介绍文本可视化之词云图的使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

环境安装:
pip install  wordcloud -i  https://pypi.tuna.tsinghua.edu.cn/simple/ 
conda install  wordcloud
# -i 后面加镜像源网站

WordCloud(background_color,repeat,max_words=600,height=480, width=584, max_font_size,font_path colormap,mask,mode,collocations, prefer_horizontal)

相关参数:

  • background_color=‘white’, # 词云图的背景颜色,默认为 "black"
  • repeat=False, # 是否重复
  • max_words=600, # 词云图中显示的最大词语数量,默认为 200
  • height=480, width=584, # 图片尺寸
  • max_font_size=200, # 词云图中显示的最大字体大小,默认为 None
  • font_path=“C:/Windows/Fonts/FZSTK.TTF”, # 指定字体文件的路径,用于显示中文字符
  • colormap=“Reds”, # 指定词云图的颜色方案,默认为 "viridis"、“Reds”“Blues”“Greens”
  • mask=mask, # 词云图的形状,可以使用一个图片作为模板,一般结合imread(),将图片中不是白色的地方作为轮廓。
  • mode=“RGBA”, # 词云图的模式,可以设置为 "RGB""RGBA"
  • collocations=False# 否考虑词语搭配,默认为 True
  • prefer_horizontal=1# 控制词语水平摆放的频率,默认为 0.9

官方文档:https://github.com/amueller/word_cloud

英文词云图:
import matplotlib.pyplot as plt
from wordcloud import WordCloud# 这里是模拟读取文件 
text="""Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 创建词云对象
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)# 绘制词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 不显示坐标轴
plt.show()

在这里插入图片描述

注意:英文分隔符是默认空格,所有我们不用对英文进行拆分处理。但是如果是中文,就需要使用jieba分词,需要拆分文字。

其实上面这个例子不是特别全面,应该进行停用词处理,这里给大家讲一下官方给出的例子:

from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import osfrom wordcloud import WordCloud, STOPWORDS
# 获取当前脚本文件的目录路径,或者如果在IPython笔记本中运行,则获取当前工作目录。
d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()# 读取文件
text = open(path.join(d, 'alice.txt')).read()
# 读取模板图像(就是你可以自定义词云图的样子)
alice_mask = np.array(Image.open(path.join(d, "alice_mask.png")))
# 创建了一个停用词的集合,并添加了一个自定义的停用词"said"
stopwords = set(STOPWORDS)
stopwords.add("said")
# 创建词云图对象
wc = WordCloud(background_color="white", max_words=2000, mask=alice_mask,stopwords=stopwords, contour_width=3, contour_color='steelblue')wc.generate(text)
# 存储
wc.to_file(path.join(d, "alice.png"))
# show
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.figure()
plt.show()

在这里插入图片描述

注意模板图像一般是黑色的,相当于只填充黑色的地方,我们看一下结果:

在这里插入图片描述

十分优美!

中文词云图:
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
from PIL import Image
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来显示中文,不然会乱码
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
text = """"
人生苦短,我用Python。Python是一门简单易学的编程语言,
广泛应用于数据分析、人工智能和Web开发领域。Python拥有丰富的第三方库和生态系统,
为开发者提供了很多便利。学习Python,让你的编程之路更加愉快。
"""# 使用jieba进行中文分词
seg_list = jieba.cut(text, cut_all=False)
seg_text = ' '.join(seg_list)
print(seg_text)# 创建词云对象   
wordcloud = WordCloud(font_path=r'msyh.ttc',width=800, height=400, background_color='white').generate(seg_text)
# wordcloud = WordCloud(font_path=r'C:/Windows/Fonts/FZSTK.TTF',width=800, height=400, background_color='white').generate(seg_text)
# 绘制词云图 
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 不显示坐标轴
# 保存词云图为图片文件
wordcloud.to_file("wordcloud.png")
plt.show()

在这里插入图片描述

读取本地文件:
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
from imageio import imread
text = """Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 读取图像并转换为数组mask=np.array(Image.open("./img.png"))# 创建词云对象,并设置 mask 参数
wordcloud = WordCloud(mask=mask,width=800, height=400, background_color='white')# 生成词云图
wordcloud.generate(text)# 显示词云图
plt.axis("off")
plt.imshow(wordcloud, interpolation="bilinear")
plt.show()

在这里插入图片描述

自定义词云形状:
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
from imageio import imread
text = """Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 读取图像并转换为数组x, y = np.ogrid[:300, :300]mask = (x - 150) ** 2 + (y - 150) ** 2 > 130 ** 2
mask = 255 * mask.astype(int)# 创建词云对象,并设置 mask 参数
wordcloud = WordCloud(mask=mask,width=800, height=400, background_color='white')# 生成词云图
wordcloud.generate(text)# 显示词云图
plt.axis("off")
plt.imshow(wordcloud, interpolation="bilinear")
plt.show()

在这里插入图片描述

总结:

​ 通过本文的介绍,我们深入了解了词云图的使用和相关参数,并学会了生成中文词云图、英文词云图以及自定义词云图的样式。词云图作为一种强大的数据可视化工具,可以帮助我们直观地了解文本数据的关键词和主题。无论是从事数据分析、文本挖掘还是对话题进行可视化呈现,词云图都能提供有价值的信息。

​ 在创建词云图时,我们可以根据需求调整不同的参数,如背景颜色、词数限制和停用词等,以达到最佳效果。此外,我们还可以通过选择合适的字体、设置自定义形状和调整颜色、轮廓等来创建独特的词云图。

​ 希望本文对你理解词云图的基本原理和应用提供了帮助,并激发了你在数据可视化方面的创造力。无论是在学术研究、商业分析还是个人项目中,词云图都是一种强大而灵活的工具,能够使你的数据更具有吸引力和可解释性。

​ 开始探索词云图的奇妙世界吧!让我们用词云图来揭示文本背后的故事,展示文字的魅力,带领读者进入一个充满词语和想象力的视觉盛宴。无论是文字的力量还是数据的美感,词云图都能为我们带来全新的体验。让我们一起用词云图来发现和分享这个世界上的无限可能性!

这篇关于文本可视化之词云图的使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/584134

相关文章

使用SpringBoot+InfluxDB实现高效数据存储与查询

《使用SpringBoot+InfluxDB实现高效数据存储与查询》InfluxDB是一个开源的时间序列数据库,特别适合处理带有时间戳的监控数据、指标数据等,下面详细介绍如何在SpringBoot项目... 目录1、项目介绍2、 InfluxDB 介绍3、Spring Boot 配置 InfluxDB4、I

使用Java读取本地文件并转换为MultipartFile对象的方法

《使用Java读取本地文件并转换为MultipartFile对象的方法》在许多JavaWeb应用中,我们经常会遇到将本地文件上传至服务器或其他系统的需求,在这种场景下,MultipartFile对象非... 目录1. 基本需求2. 自定义 MultipartFile 类3. 实现代码4. 代码解析5. 自定

使用Python实现无损放大图片功能

《使用Python实现无损放大图片功能》本文介绍了如何使用Python的Pillow库进行无损图片放大,区分了JPEG和PNG格式在放大过程中的特点,并给出了示例代码,JPEG格式可能受压缩影响,需先... 目录一、什么是无损放大?二、实现方法步骤1:读取图片步骤2:无损放大图片步骤3:保存图片三、示php

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

使用Python实现一个简易计算器的新手指南

《使用Python实现一个简易计算器的新手指南》计算器是编程入门的经典项目,它涵盖了变量、输入输出、条件判断等核心编程概念,通过这个小项目,可以快速掌握Python的基础语法,并为后续更复杂的项目打下... 目录准备工作基础概念解析分步实现计算器第一步:获取用户输入第二步:实现基本运算第三步:显示计算结果进

python之uv使用详解

《python之uv使用详解》文章介绍uv在Ubuntu上用于Python项目管理,涵盖安装、初始化、依赖管理、运行调试及Docker应用,强调CI中使用--locked确保依赖一致性... 目录安装与更新standalonepip 安装创建php以及初始化项目依赖管理uv run直接在命令行运行pytho

C#使用Spire.XLS快速生成多表格Excel文件

《C#使用Spire.XLS快速生成多表格Excel文件》在日常开发中,我们经常需要将业务数据导出为结构清晰的Excel文件,本文将手把手教你使用Spire.XLS这个强大的.NET组件,只需几行C#... 目录一、Spire.XLS核心优势清单1.1 性能碾压:从3秒到0.5秒的质变1.2 批量操作的优雅

Kotlin 枚举类使用举例

《Kotlin枚举类使用举例》枚举类(EnumClasses)是Kotlin中用于定义固定集合值的特殊类,它表示一组命名的常量,每个枚举常量都是该类的单例实例,接下来通过本文给大家介绍Kotl... 目录一、编程枚举类核心概念二、基础语法与特性1. 基本定义2. 带参数的枚举3. 实现接口4. 内置属性三、

Java List 使用举例(从入门到精通)

《JavaList使用举例(从入门到精通)》本文系统讲解JavaList,涵盖基础概念、核心特性、常用实现(如ArrayList、LinkedList)及性能对比,介绍创建、操作、遍历方法,结合实... 目录一、List 基础概念1.1 什么是 List?1.2 List 的核心特性1.3 List 家族成

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具:字符串方法与序列匹配二、正则表达式:模式匹配的瑞士军刀2.1 re模块核心AP