seaborn可视化学习之categorial visualization(附数据集)

2024-01-02 16:38

本文主要是介绍seaborn可视化学习之categorial visualization(附数据集),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Seaborn是一个做数据可视化效果很棒的库。在看了官方tutorial之后,尝试用Iris鸢尾花数据集实践一下categorical visualization,也就是数据按类别进行可视化。
首先介绍一下Iris鸢尾花数据集,内容摘自百度百科:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。“Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类”。

导入库

In [1]:
import warnings
warnings.filterwarnings("ignore")
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

读取数据

In [2]:
iris = pd.read_csv('../input/iris/iris.csv')
iris.head()
Out[2]:
 sepal_lengthsepal_widthpetal_lengthpetal_widthspecies
05.13.51.40.2setosa
14.93.01.40.2setosa
24.73.21.30.2setosa
34.63.11.50.2setosa
45.03.61.40.2setosa

数据字段介绍:

  • sepal_length:花萼长度,单位cm
  • sepal_width:花萼宽度,单位cm
  • petal_length:花瓣长度,单位cm
  • petal_width:花瓣宽度,单位cm
  • 种类:setosa(山鸢尾),versicolor(杂色鸢尾),virginica(弗吉尼亚鸢尾)

在做categorical visualization的时候,seaborn给出了基础的stripplot &swarmplotboxplot & violinplotbarplot & pointplot,以及抽象化的factorplot.下面就用纸鸢花数据集做一下讲解。

Stripplot

Stripplot的本质就是把数据集中具有quantitative属性的变量按照类别去做散点图(Scatterplot)。

我们将纸鸢花数据集中不同种类花的sepal length做stripplot可视化

In [3]:
plt.figure(1,figsize=(12,6))plt.subplot(1,2,1)
sns.stripplot(x='species',y='sepal_length',data=iris) #stripplot
plt.title('Striplot of sepal length of Iris species')with sns.axes_style("whitegrid"): # 这个是临时设置样式的命令,如果不写,则按默认格式'darkgrid'进行绘制plt.subplot(1,2,2)plt.title('Striplot of sepal length of Iris species')sns.stripplot(x='species',y='sepal_length',data=iris,jitter=True) # jitterplotplt.show()

上边左侧的图片便是在默认风格下用stripplot绘制的散点图。在很多情况下,stripplot中的点会重叠,使得我们不容易看出点的分布情况。一个简单的解决办法就是用在stripplot的基础上绘制抖动图(jitterplot),仅沿着类别坐标轴的方向去随机微调整点的位置,显示出分布情况。

Swarmplot

另一个解决stripplot中点重叠的办法就是绘制swarmplot,它的本质就是用通过算法,在类别坐标轴的方向上去‘延展’绘制这些原本重合的点。 我们将纸鸢花数据集中不同种类花的petal length和petal width做swarmplot可视化。

In [4]:
plt.figure(1,figsize=(12,6))plt.subplot(1,2,1)
sns.swarmplot(x='species',y='petal_length',data=iris) with sns.axes_style("ticks"): # 这次使用了ticks风格plt.subplot(1,2,2)sns.swarmplot(x='species',y='petal_width',data=iris)plt.show()

Boxplot

箱形图,主要包含六个数据节点,将一组数据从大到小排列,分别计算出上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有异常值。 下面将纸鸢花数据集中的四个变量sepal_length, sepal_width, petal_length和petal_width做箱形图可视化。

In [5]:
var = ['sepal_length','sepal_width','petal_length','petal_width']
axes_style = ['ticks','white','whitegrid', 'dark']fig = plt.figure(1,figsize=(12,12))for i in range(4):with sns.axes_style(axes_style[i]): # 将除了默认的darkgrid之外的样式都展现一遍plt.subplot(2,2,i+1)sns.boxplot(x='species',y=var[i],data=iris)plt.show()

Violinplot

Violinplot相当于结合了箱形图与核密度图,更好地展现出数据的量化形态。展示如下:

In [6]:
context= ['notebook','paper','talk','poster']
axes_style = ['ticks','white','whitegrid', 'dark']plt.figure(1,figsize=(12,12))
for i in range(4):with sns.axes_style(axes_style[i]):#设置axes_stylesns.set_context(context[i]) # 设置context style,默认为notebook,除此之外还有paper,talk,posterplt.subplot(2,2,i+1)plt.title(str(var[i])+ ' in Iris species')sns.violinplot(x='species',y=var[i],data=iris)plt.show()

Violinplot用kernel density estimate去更好地描述了quantitative变量的分布。
与此同时,也可以组合swarmplot和boxplot或violinplot去描述quantitative变量。用鸢尾花数据集展示如下:

In [7]:
context= ['notebook','paper','talk','poster']
axes_style = ['ticks','white','whitegrid', 'dark']plt.figure(1,figsize=(12,12))
for i in range(4):with sns.axes_style(axes_style[i]):#设置axes_stylesns.set_context(context[i])#设置contextplt.subplot(2,2,i+1)plt.title(str(var[i])+ ' in Iris species')sns.swarmplot(x='species', y=var[i], data=iris, color="w", alpha=.5) sns.violinplot(x='species', y=var[i], data=iris, inner=None) if i%2 ==0 \else sns.boxplot(x='species', y=var[i], data=iris) # 分别用swarmplot+violinplot 和swarmplot + boxplotplt.show()

Barplot

Barplot主要是展现在分类中的quantitative变量的平均值情况,并且用了boostrapping算法计算了估计值的置信区间和error bar.用鸢尾花数据集展示如下:

In [8]:
plt.figure(1,figsize=(12,12))
for i in range(4):with sns.axes_style(axes_style[i]):#设置axes_stylesns.set_context(context[i]) # 设置context style,默认为notebook,除此之外还有paper,talk,posterplt.subplot(2,2,i+1)plt.title(str(var[i])+ ' in Iris species')sns.barplot(x='species',y=var[i],data=iris)
plt.show()

Countplot

如果想知道在每个类别下面有多少个观察值,用countplot就可以,相当于是做一个observation counts,用鸢尾花数据集展示如下:

In [9]:
plt.figure(figsize=(5,5))
sns.countplot(y="species", data=iris) # 设置y='species',将countplot水平放置
plt.title('Iris species count')
plt.show()

Pointplot

Pointplot相当于是对barplot做了一个横向延伸,一方面,用point estimate和confidence level去展示barplot的内容;另一方面,当每一个主类别下面有更细分的sub-category的时候,pointplot可以便于观察不同sub-category在各主类别之间的联系。展示如下:

In [10]:
plt.figure(1,figsize=(12,12))
for i in range(4):with sns.axes_style(axes_style[i]):#设置axes_stylesns.set_context(context[i]) # 设置context style,默认为notebook,除此之外还有paper,talk,posterplt.subplot(2,2,i+1)plt.title(str(var[i])+ ' in Iris species')sns.pointplot(x='species',y=var[i],data=iris)
plt.show()

Factorplot

Factorplot可以说是seaborn做category visualization的精髓,前面讲的这些plot都可以说是factorplot的具体展示。我们可以用PariGrid去实现对多个类别的数值特征用同一种plot做可视化。

In [11]:
sns.set(style="ticks")
g = sns.PairGrid(iris,x_vars = ['sepal_length','sepal_width','petal_length','petal_width'],y_vars = 'species',aspect=0.75,size=4) # 设置间距和图片大小
g.map(sns.violinplot,palette='pastel')
plt.show()

附上各plot function的API,今后将会对API中的参数结合tutorial讲讲,如何做出更好的可视化效果。更新ing

In [12]:
# seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, 
# jitter=False, dodge=False, orient=None, color=None, palette=None, size=5, edgecolor='gray', 
# linewidth=0, ax=None, **kwargs)
In [13]:
# seaborn.swarmplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, 
# dodge=False, orient=None, color=None, palette=None, size=5, edgecolor='gray', linewidth=0, ax=None, **kwargs)
In [14]:
# seaborn.boxplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, 
# orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True, fliersize=5, l
# inewidth=None, whis=1.5, notch=False, ax=None, **kwargs)
In [15]:
# seaborn.violinplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, 
# bw='scott', cut=2, scale='area', scale_hue=True, gridsize=100, width=0.8, inner='box', 
# split=False, dodge=True, orient=None, linewidth=None, color=None, palette=None, 
# saturation=0.75, ax=None, **kwargs)
In [16]:
# seaborn.lvplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, 
# orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True, 
# k_depth='proportion', linewidth=None, scale='exponential', outlier_prop=None, ax=None, **kwargs)
In [17]:
# seaborn.pointplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, 
# estimator=<function mean>, ci=95, n_boot=1000, units=None, markers='o', linestyles='-', 
# dodge=False, join=True, scale=1, orient=None, color=None, palette=None, errwidth=None, capsize=None, ax=None, **kwargs)
In [18]:
# seaborn.barplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, 
# estimator=<function mean>, ci=95, n_boot=1000, units=None, orient=None, color=None, palette=None, 
# saturation=0.75, errcolor='.26', errwidth=None, capsize=None, dodge=True, ax=None, **kwargs)

小结

seaborn是一个很棒的可视化库,尤其是当数据维度很大的时候,seaborn可以让我们用最少的代码去绘制一些描述性统计的图,便于找寻各维度变量之间的特征。此篇文档也是我对seaborn的学习笔记,这次整理的内容是关于category visualization。下次将会选取其他数据集去整理关于distribution visualization的内容。

附数据集:链接:https://pan.baidu.com/s/1jyMAmKPm583q81JnqIA9GA 密码:vqq6

Reference:

  • Seaborn Tutorial
  • Seaborn API Reference

这篇关于seaborn可视化学习之categorial visualization(附数据集)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/563039

相关文章

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

C#解析JSON数据全攻略指南

《C#解析JSON数据全攻略指南》这篇文章主要为大家详细介绍了使用C#解析JSON数据全攻略指南,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、为什么jsON是C#开发必修课?二、四步搞定网络JSON数据1. 获取数据 - HttpClient最佳实践2. 动态解析 - 快速

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语