Python使用Matplotlib和Seaborn绘制常用图表的技巧

2025-12-07 20:50

本文主要是介绍Python使用Matplotlib和Seaborn绘制常用图表的技巧,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《Python使用Matplotlib和Seaborn绘制常用图表的技巧》Python作为数据科学领域的明星语言,拥有强大且丰富的可视化库,其中最著名的莫过于Matplotlib和Seaborn,本篇...

1. 引言:数据可视化的力量

在当今数据爆炸的时代,我们每天都面临着海量信息。如何从这些原始数据中提取有价值的洞察,并将其清晰、有效地传达给他人?答案就是——数据可视化

数据可视化是将数据以图形或图像的形式呈现,帮助我们理解数据模式、趋势、异常值和关系。它不仅仅是美化数据,更是数据分析不可或缺的一环。一张精心设计的图表,往往胜过千言万语,能让我们一眼洞察数据背后的故事。

python作为数据科学领域的明星语言,拥有强大且丰富的可视化库,其中最著名的莫过于 MatplotlibSeaborn

  • Matplotlib 是Python最基础也是最核心的绘图库,它提供了非常灵活的绘图接口,可以绘制各种静态、动态、交互式的图表。虽然其默认样式可能略显朴素,但通过精细的控制,可以创建出任何你想要的图表。
  • Seaborn 是基于Matplotlib的高级统计图表库,它提供了更美观的默认样式和更高级的统计图表类型,特别适合进行探索性数据分析。Seaborn让绘制复杂且具有统计学意义的图表变得更加简单快捷。

本篇博客将作为数据可视化之旅的起点,手把手带领完全新手读者,从零开始学习如何使用Matplotlib和Seaborn绘制常用图表,并掌握一些基本的图表定制技巧

2. 前置知识与环境准备

在开始绘图之前,请确保您的Python环境中已安装必要的库。

2.1. 必备知识

  • Python基础: 对Python语法、数据类型(列表、字典)、循环、函数等有基本了解。
  • Pandas基础: 对DataFrame数据结构有基本认识,知道如何创建、选择和过滤数据。

2.2. 安装所需库

如果您尚未安装 pandas, matplotlibseaborn,可以使用 pip 命令进行安装:

pip install pandas matplotlib seaborn

2.3. 推荐开发环境

为了获得最佳的学习体验,我们强烈建议您使用 Jupyter NotebookJupyterLab。它们提供了交互式的代码执行环境,可以即时看到绘图结果,非常适合数据探索和可视化。

如果您使用VS Code等IDE,也可以直接运行Python脚本

3. 分步指南:从基础到进阶的图表绘制

我们将首先从Matplotlib的基础图表开始,然后过渡到Seaborn更高级和美观的图表。

3.1. 导入必要的库

在任何绘图代码的开头,通常都需要导入这些库:

import pandas as pd
import numpy as np # NumPy常用于生成数值数据
import matplotlib.pyplot as plt
import seaborn as sns

# 设置Matplotlib中文显示,防止乱码
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决保存图像时负号'-'显示为方块的问题

小贴士: plt.rcParams 的设置是为了让Matplotlib能够正确显示中文标签和负号。如果您是在英文环境下,可以忽略此设置。

3.2. 准备示例数据

为了演示,我们先创建一些简单的数据。

# 创建一个简单的DataFrame
data = {
    '月份': ['一月', '二月', '三月', '四月', '五月', '六月'],
    '销售额': [150, 200, 180, 220, 250, 230],
    '成本': [100, 120, 110, 130, 140, 135],
    '利润': [50, 80, 70, 90, 110, 95],
    '产品A销量': [30, 45, 40, 50, 60, 55],
    '产品B销量': [20, 30, 25, 35, 40, 38],
    '评分': [75, 80, 85, 70, 90, 88]
}
df = pd.DataFrame(data)
print("示例DataFrame:")
print(df)

# 创建一些用于直方图和饼图的额外数据
np.random.seed(42) # 为了结果可复现
scores = np.random.normal(loc=75, scale=10, size=100) # 模拟100个考试分数
categories = ['电子产品', '服装', '食品', '家居', '图书']
sales_by_category = [400, 300, 200, 150, 100]

3.3. Matplotlib基础绘图

Matplotlib的绘图流程通常是:plt.figure() (创建画布,可选) -> plt.plot()/plt.scatter()/... (绘制图表) -> plt.title()/plt.xlabel()/... (添加标题和标签) -> plt.show() (显示图表)。

3.3.1. 折线图 (Line Plot)

用途: 展现数据随时间或其他连续变量变化的趋势。

plt.figure(figsize=(10, 6)) # 设置图表大小
plt.plot(df['月份'], df['销售额'], marker='o', linestyle='-', color='skyblue', label='销售额')
plt.plot(df['月份'], df['成本'], marker='x', linestyle='--', color='salmon', label='成本')

plt.title('月度销售额与成本趋势')
plt.xlabel('月份')
plt.ypythonlabel('金额 (万元)')
plt.grid(True, linestyle='--', alpha=0.7) # 添加网格线
plt.legend() # 显示图例
plt.show()

3.3.2. 散点图 (Scatter Plot)

用途: 探索两个数值变量之间的关系,判断是否存在相关性。

plt.figure(figsize=(8, 6))
plt.scatter(df['销售额'], df['利润'], color='purple', alpha=0.7)

plt.title('销售额与利润关系散点图')
plt.xlabel('销售额 (万元)')
plt.ylabel('利润 (万元)')
plt.grid(True, linestyle=':', alpha=0.6)
plt.show()

3.3.3. 柱状图 (Bar Plot)

用途: 比较不同类别之间的数据大小。

plt.figure(figsize=(10, 6))
plt.bar(df['月份'], df['产品A销量'], color='lightgreen', label='产品A销量')
plt.bar(df['月份'], df['产品B销量'], bottom=df['产品A销量'], color='lightcoral', label='产品B销量') # 堆叠柱状图

plt.title('月度产品销量对比')
plt.xlabel('月份')
plt.ylabel('销量 (件)')
plt.legend()
plt.show()

3.3.4. 直方图 (Histogram)

用途: 显示数值数据的分布情况,了解数据集中在哪个范围,以及分布的形状。

plt.figure(figsize=(8, 6))
plt.hist(scores, bChina编程ins=10, color='teal', edgecolor='black', alpha=0.7) # bins参数控制分组数量

plt.title('学生考试分数分布')
plt.xlabel('分数')
plt.ylabel('人数')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

3.3.5. 饼图 (Pie Chart)

用途: 展现各部分在整体中所占的比例。

plt.figure(figsize=(8, 8))
plt.pie(sales_by_category, labels=categories, autopct='%1.1f%%', startangle=90, colors=sns.color_palette('pastel'))
# autopct='%1.1f%%' 显示百分比
# startangle=90 从90度开始逆时针绘制
# colors=sns.color_palette('pastel') 使用Seaborn的调色板让饼图更美观

plt.title('各产品类别销售额占比')
plt.axis('equal') # 保证饼图是正圆
plt.show()

3.3.6. 图表定制化总结

Matplotlib提供了丰富的定制选项:

  • plt.figure(figsize=(width, height)): 创建一个指定大小的画布。
  • plt.title('标题'): 设置图表主标题。
  • plt.xlabel('X轴标签'), plt.ylabel('Y轴标签'): 设置坐标轴标签。
  • plt.xticks(), plt.yticks(): 设置坐标轴刻度。
  • plt.grid(True): 添加网格线。
  • plt.legend(): 显示图例。
  • plt.xlim(), plt.ylim(): 设置坐标轴范围。
  • color='...', marker='...', linestyle='...', alpha=...: 控制线条颜色、标记、样式和透明度。
  • plt.savefig('my_plot.png'): 保存图表到文件。

3.4. Seaborn增强绘图

Seaborn在Matplotlib的基础上进行了封装,提供了更高级的API和更美观的默认样式,尤其擅长绘制统计图表。

为了更好地展示Seaborn的特性,我们加载一个Seaborn自带的经典数据集 tips

# 加载Seaborn自带数据集
tips = sns.load_dataset('tips')
print("\nSeaborn 'tips' 数据集:")
pri编程nt(tips.head())

3.4.1. 关系图 (Relational Plots)编程

Seaborn的 relplot() 可以方便地创建散点图和折线图,并支持通过 col, row, hue, size, style 等参数创建多维度视图。

  • 散点图 (scatterplot)
plt.figure(figsize=(10, 6))
sns.scatterplot(x='total_bill', y='tip', hue='time', style='smoker', size='size', data=tips)
plt.title('用餐总金额与小费关系 (按用餐时间与吸烟者区分)')
plt.xlabel('用餐总金额 ($)')
plt.ylabel('小费 ($)')
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

3.4.2. 分布图 (Distribution Plots)

  • 直方图 (histplot)
plt.figure(figsize=(10, 6))
sns.histplot(data=tips, x='total_bill', kde=True, hue='sex', palette='viridis')
# kde=True 会在直方图上叠加核密度估计曲线
# hue='sex' 按性别进行分组显示
plt.title('用餐总金额分布 (按性别)')
plt.xlabel('用餐总金额 ($)')
plt.ylabel('计数')
plt.show()
  • 核密度估计图 (kdeplot)
plt.figure(figsize=(10, 6))
sns.kdeplot(data=tips, x='total_bill', hue='time', fill=True, palette='coolwarm')
plt.title('用餐总金额核密度估计 (按用餐时间)')
plt.xlabel('用餐总金额 ($)')
plt.ylabel('密度')
plt.show()

3.4.3. 分类图 (Categorical Plots)

  • 柱状图 (barplot)
plt.figure(figsize=(10, 6))
sns.barplot(x='day', y='total_bill', hue='sex', data=tips, palette='deep')
plt.title('每日用餐总金额均值 (按性别)')
plt.xlabel('星期几')
plt.ylabel('用餐总金额均值 ($)')
plt.show()
  • 计数图 (countplot)
plt.figure(figsize=(8, 6))
sns.countplot(x='day', hue='time', data=tips, palette='pastel')
plt.title('每日用餐次数 (按用餐时间)')
plt.xlabel('星期几')
plt.ylabel('用餐次数')
plt.show()
  • 箱线图 (boxplot)

用途: 显示数值数据的五数概括(最小值、下四分位数、中位数、上四分位数、最大值)和异常值。

plt.figure(figsize=(10, 6))
sns.boxplot(x='day', y='total_bill', hue='smoker', data=tips, palette='muted')
plt.title('每日用餐总金额分布 (按吸烟者)')
plt.xlabel('星期几')
plt.ylabel('用餐总金额 ($)')
plt.show()
  • 小提琴图 (violinplot)

用途: 结合了箱线图和核密度估计图的特点,更详细地展示数据的分布形状。

plt.figureXTOooGzPhV(figsize=(10, 6))
sns.violinplot(x='day', y='tip', hue='sex', data=tips, palette='viridis', inner='quartile')
# inner='quartile' 显示四分位数线
plt.title('每日小费金额分布 (按性别)')
plt.xlabel('星期几')
plt.ylabel('小费 ($)')
plt.show()

3.4.4. 热力图 (Heatmap)

用途: 可视化矩阵数据,尤其适用于展示相关性矩阵。

# 计算tips数据集中数值列的相关性矩阵
correlation_matrix = tips[['total_bill', 'tip', 'size']].corr()

plt.figure(figsize=(8, 7))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)
# annot=True 在热力图上显示数值
# cmap='coolwarm' 设置颜色映射
# fmt=".2f" 格式化数值为两位小数
plt.title('用餐数据数值变量相关性热力图')
plt.show()

4. 常见陷阱与注意事项

作为初学者,在进行数据可视化时容易犯一些错误。了解这些陷阱可以帮助您创建更有效、更准确的图表。

  1. 选择错误的图表类型:
    • 错误: 用饼图展示多个类别之间的趋势(饼图只适合展示部分与整体的比例,类别过多或需要看趋势时应避免)。
    • 正确: 趋势用折线图,比较用柱状图,分布用直方图/KDE图,关系用散点图。
  2. 图表信息不完整:
    • 陷阱: 缺少标题、X/Y轴标签、单位,或者图例不清晰。
    • 解决方案: 始终为图表添加清晰、描述性的标题和标签,确保读者无需额外解释就能理解图表内容。
  3. 数据量过大导致重叠 (Overplotting):
    • 陷阱: 在散点图中,如果数据点过多,它们会相互重叠,导致无法看清 真实分布。
    • 解决方案: 考虑使用透明度 (alpha 参数),或者使用 hexbin 图、2D核密度估计图(sns.kdeplot(..., kind='hist'))等替代方案。
  4. 误导性可视化:
    • 陷阱: 坐标轴没有从零开始,或者坐标轴范围设置不当,可能夸大或缩小数据的差异。
    • 解决方案: 除非有充分理由,否则Y轴通常应从零开始。谨慎设置坐标轴范围,确保真实反映数据。
  5. 颜色选择不当:
    • 陷阱: 使用过多颜色,或者颜色对比度不足,导致图表难以阅读,特别是对于色盲用户。
    • 解决方案: 优先使用Seaborn提供的调色板,它们通常经过优化。对于分类数据,选择区分度高的颜色;对于连续数据,选择渐变色。

5. 总结

数据可视化是一项实践性很强的技能。要真正掌握它,需要不断地练习和尝试。从简单的数据集开始,尝试绘制不同类型的图表,并不断调整参数和样式,直到您能自信地用图表讲述数据的故事。

记住,好的可视化不仅仅是代码的堆砌,更是对数据洞察的艺术表达。祝您在数据可视化的旅程中取得丰硕的成果!

以上就是Python使用Matplotlib和Seaborn绘制常用图表的技巧的详细内容,更多关于Python Matplotlib和Seaborn绘制图表的资料请关注编程China编程(www.chinasem.cn)其它相关文章!

这篇关于Python使用Matplotlib和Seaborn绘制常用图表的技巧的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1156380

相关文章

Java实现字符串大小写转换的常用方法

《Java实现字符串大小写转换的常用方法》在Java中,字符串大小写转换是文本处理的核心操作之一,Java提供了多种灵活的方式来实现大小写转换,适用于不同场景和需求,本文将全面解析大小写转换的各种方法... 目录前言核心转换方法1.String类的基础方法2. 考虑区域设置的转换3. 字符级别的转换高级转换

使用Python将PDF表格自动提取并写入Word文档表格

《使用Python将PDF表格自动提取并写入Word文档表格》在实际办公与数据处理场景中,PDF文件里的表格往往无法直接复制到Word中,本文将介绍如何使用Python从PDF文件中提取表格数据,并将... 目录引言1. 加载 PDF 文件并准备 Word 文档2. 提取 PDF 表格并创建 Word 表格

使用Python实现局域网远程监控电脑屏幕的方法

《使用Python实现局域网远程监控电脑屏幕的方法》文章介绍了两种使用Python在局域网内实现远程监控电脑屏幕的方法,方法一使用mss和socket,方法二使用PyAutoGUI和Flask,每种方... 目录方法一:使用mss和socket实现屏幕共享服务端(被监控端)客户端(监控端)方法二:使用PyA

Python列表的创建与删除的操作指南

《Python列表的创建与删除的操作指南》列表(list)是Python中最常用、最灵活的内置数据结构之一,它支持动态扩容、混合类型、嵌套结构,几乎无处不在,但你真的会创建和删除列表吗,本文给大家介绍... 目录一、前言二、列表的创建方式1. 字面量语法(最常用)2. 使用list()构造器3. 列表推导式

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度

Linux内核定时器使用及说明

《Linux内核定时器使用及说明》文章详细介绍了Linux内核定时器的特性、核心数据结构、时间相关转换函数以及操作API,通过示例展示了如何编写和使用定时器,包括按键消抖的应用... 目录1.linux内核定时器特征2.Linux内核定时器核心数据结构3.Linux内核时间相关转换函数4.Linux内核定时

Python+FFmpeg实现视频自动化处理的完整指南

《Python+FFmpeg实现视频自动化处理的完整指南》本文总结了一套在Python中使用subprocess.run调用FFmpeg进行视频自动化处理的解决方案,涵盖了跨平台硬件加速、中间素材处理... 目录一、 跨平台硬件加速:统一接口设计1. 核心映射逻辑2. python 实现代码二、 中间素材处

python中的flask_sqlalchemy的使用及示例详解

《python中的flask_sqlalchemy的使用及示例详解》文章主要介绍了在使用SQLAlchemy创建模型实例时,通过元类动态创建实例的方式,并说明了如何在实例化时执行__init__方法,... 目录@orm.reconstructorSQLAlchemy的回滚关联其他模型数据库基本操作将数据添

Spring配置扩展之JavaConfig的使用小结

《Spring配置扩展之JavaConfig的使用小结》JavaConfig是Spring框架中基于纯Java代码的配置方式,用于替代传统的XML配置,通过注解(如@Bean)定义Spring容器的组... 目录JavaConfig 的概念什么是JavaConfig?为什么使用 JavaConfig?Jav

Python实现快速扫描目标主机的开放端口和服务

《Python实现快速扫描目标主机的开放端口和服务》这篇文章主要为大家详细介绍了如何使用Python编写一个功能强大的端口扫描器脚本,实现快速扫描目标主机的开放端口和服务,感兴趣的小伙伴可以了解下... 目录功能介绍场景应用1. 网络安全审计2. 系统管理维护3. 网络故障排查4. 合规性检查报错处理1.