EDA-数据探索-pandas自带可视化-iris

本文主要是介绍EDA-数据探索-pandas自带可视化-iris，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

# 加载yellowbrick数据集
import os
import pandas as pd
FIXTURES  = os.path.join(os.getcwd(), "data")
df = pd.read_csv(os.path.join(FIXTURES,"iris.csv"))
df.head()

	sepal_length	sepal_width	petal_length	petal_width	species
0	5.1	3.5	1.4	0.2	setosa
1	4.9	3.0	1.4	0.2	setosa
2	4.7	3.2	1.3	0.2	setosa
3	4.6	3.1	1.5	0.2	setosa
4	5.0	3.6	1.4	0.2	setosa

df.head().to_dict()

{'sepal_length': {0: 5.1, 1: 4.9, 2: 4.7, 3: 4.6, 4: 5.0},'sepal_width': {0: 3.5, 1: 3.0, 2: 3.2, 3: 3.1, 4: 3.6},'petal_length': {0: 1.4, 1: 1.4, 2: 1.3, 3: 1.5, 4: 1.4},'petal_width': {0: 0.2, 1: 0.2, 2: 0.2, 3: 0.2, 4: 0.2},'species': {0: 'setosa', 1: 'setosa', 2: 'setosa', 3: 'setosa', 4: 'setosa'}}

可视化相关的库

import warnings
warnings.filterwarnings('ignore')import numpy as np
from scipy.stats import normimport seaborn as sns
import matplotlib.pyplot as plt
get_ipython().run_line_magic('matplotlib', 'inline')plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

df.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width','species'],dtype='object')

plt.style.available

['Solarize_Light2','_classic_test_patch','_mpl-gallery','_mpl-gallery-nogrid','bmh','classic','dark_background','fast','fivethirtyeight','ggplot','grayscale','seaborn-v0_8','seaborn-v0_8-bright','seaborn-v0_8-colorblind','seaborn-v0_8-dark','seaborn-v0_8-dark-palette','seaborn-v0_8-darkgrid','seaborn-v0_8-deep','seaborn-v0_8-muted','seaborn-v0_8-notebook','seaborn-v0_8-paper','seaborn-v0_8-pastel','seaborn-v0_8-poster','seaborn-v0_8-talk','seaborn-v0_8-ticks','seaborn-v0_8-white','seaborn-v0_8-whitegrid','tableau-colorblind10']

plt.style.use( 'seaborn-v0_8')

字符特征

条形图（柱状图）展示每个字符特征的频数分布。

df[‘字符特征’].value_counts().plot(kind=‘bar’)

df['species'].value_counts().plot(kind='bar')  # 均衡的一笔

<Axes: xlabel='species'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数字特征

直方图展示数字特征的分布情况。

df[‘数字特征’].plot(kind=‘hist’)

df['sepal_length'].plot(kind='hist')

<Axes: ylabel='Frequency'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

from scipy.stats import gaussian_kde# 绘制直方图
ax = df['sepal_length'].plot(kind='hist', bins=10, density=True)# 计算核密度估计
density = gaussian_kde(df['sepal_length'])x, y = np.linspace(df['sepal_length'].min(), df['sepal_length'].max(), 100), density(np.linspace(df['sepal_length'].min(), df['sepal_length'].max(), 100))# 绘制拟合曲线
ax.plot(x, y) # ,color='red'# 显示图形
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分类结果

饼图展示分类结果的占比情况。

df[‘分类结果’].value_counts().plot(kind=‘pie’)

ax = df['species'].value_counts().plot(kind='pie') # 均衡的一笔
# 自定义ylabel
ax.set_ylabel(' ')
# 显示图形
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

字符特征与数字特征关系

箱线图展示不同字符特征对应的数字特征的分布情况。

df.boxplot(column=‘数字特征’, by=‘字符特征’)

df.boxplot(column='sepal_length', by='species') # ,color='orange'
# 自定义标题
plt.title(' ')
# 显示图形
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

字符特征与数字特征关系

折线图展示不同字符特征对应的数字特征的均值变化趋势。

df.groupby(‘字符特征’)[‘数字特征’].mean().plot(kind=‘line’)

df.groupby('species')['sepal_length'].mean().plot(kind='line')

<Axes: xlabel='species'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数字特征间的关系

散点图展示两个数字特征之间的相关性。

df.plot(kind=‘scatter’, x=‘数字特征1’, y=‘数字特征2’)

df.plot(kind='scatter', x='sepal_length', y='sepal_width')

<Axes: xlabel='sepal_length', ylabel='sepal_width'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数字特征的分布情况

箱线图展示数字特征的分布情况和异常值。

df.boxplot(column=‘数字特征’)

df.boxplot(column='sepal_length') # ,color='#4C72B0'

<Axes: >

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数字特征的分布情况

核密度估计图展示数字特征的概率密度分布。

df[‘数字特征’].plot(kind=‘density’)

df['sepal_length'].plot(kind='density')

<Axes: ylabel='Density'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

字符特征和分类结果的交叉统计

交叉表展示字符特征和分类结果之间的频数统计。

pd.crosstab(df[‘字符特征’], df[‘分类结果’]).plot(kind=‘bar’)

pd.crosstab(df['species'], df['species']).plot(kind='bar')

<Axes: xlabel='species'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这篇关于EDA-数据探索-pandas自带可视化-iris的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

EDA-数据探索-pandas自带可视化-iris

可视化相关的库

字符特征

数字特征

分类结果

字符特征与数字特征关系

字符特征与数字特征关系

数字特征间的关系

数字特征的分布情况

数字特征的分布情况

字符特征和分类结果的交叉统计

相关文章

Python pandas库自学超详细教程

Python安装Pandas库的两种方法

SpringBoot多环境配置数据读取方式

解决pandas无法读取csv文件数据的问题

C#监听txt文档获取新数据方式

java如何实现高并发场景下三级缓存的数据一致性

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

C#解析JSON数据全攻略指南

MyBatis-Plus通用中等、大量数据分批查询和处理方法

SQL中如何添加数据(常见方法及示例)