Pandas之DataFrame操作

本文主要是介绍Pandas之DataFrame操作，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Pandas是Python下一个开源数据分析的库，它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。 1. 基本使用：创建DataFrame. DataFrame是一张二维的表，大家可以把它想象成一张Excel表单或者Sql表。Excel 2007及其以后的版本的最大行数是1048576，最大列数是16384，超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本，无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的sh事情，同时随后我们也将看到它比SQL有更强的表达能力，可以做很多复杂的操作，要写的code也更少。说了一大堆它的好处，要实际感触还得动手码代码。首要的任务就是创建一个DataFrame，它有几种创建方式：

列表，序列(pandas.Series), numpy.ndarray的字典
二维numpy.ndarray
别的DataFrame
结构化的记录(structured arrays)

其中，我最喜欢的是通过二维ndarray创建DataFrame，因为代码敲得最少：

  import  pandas as pd 
 import  numpy as np 
 df = pd.DataFrame(np.random.randn( 3 , 4 )) 
 df 
 0 1 2 3 
 0 0.236175 - 0.394792 - 0.171866 0.304012 
 1 0.651926 0.989046 0.160389 0.482936 
 2 - 1.039824 0.401105 - 0.492714 - 1.220438 
 

当然你还可以参考我的这篇文章从mysql数据库或者csv文件中载入数据到dataframe。
dataframe中index用来标识行，column标识列，shape表示维度。

  # 获得行索引信息 
 df.index 
 # 获得列索引信息 
 df.columns 
 # 获得df的size 
 df.shape 
 # 获得df的行数 
 df.shape[0] 
# 获得df的 列数 
 df.shape[1] 
 # 获得df中的值 
 df.values 
 

通过describe方法，我们可以对df中的数据有个大概的了解：

  df.describe() 
 0 1 2 3 
 count 3.000000 3.000000 3.000000 3.000000 
 mean - 0.050574 0.331786 - 0.168064 - 0.144496 
 std 0.881574 0.694518 0.326568 0.936077 
 min - 1.039824 - 0.394792 - 0.492714 - 1.220438 
 25 % - 0.401824 0.003156 - 0.332290 - 0.458213 
 50 % 0.236175 0.401105 - 0.171866 0.304012 
 75 % 0.444051 0.695076 - 0.005739 0.393474 
 max 0.651926 0.989046 0.160389 0.482936 
 

2. 数据select, del, update。

按照列名select:

按照行数select:

  df[: 3 ] #选取前3行 
 

按照索引select:

  df.loc[ 0 ] 
0.236175 
- 0.394792 
- 0.171866 
0.304012 
 

按照行数和列数select:

  df.iloc[ 3 ] #选取第3行 
 df.iloc[ 2 : 4 ] #选取第2到第3行 
 df.iloc[ 0 , 1 ] #选取第0行1列的元素 
 dat.iloc[: 2 , : 3 ] #选取第0行到第1行，第0列到第2列区域内的元素 
 df1.iloc[[1,3,5],[1,3]] #选取第1，3，5行，第1，3列区域内的元素 
 

删除某列：

  del df[0] 
 df 
 1 2 3 
 0 - 0.394792 - 0.171866 0.304012 
 1 0.989046 0.160389 0.482936 
 2 0.401105 - 0.492714 - 1.220438 
 

删除某行：

  df.drop(0) 
2 3 
0.989046 0.160389 0.482936 
0.401105 - 0.492714 - 1.220438 
 

3.运算。

基本运算：

  df[ 4 ] = df[ 1 ] + df[ 2 ] 
2 3 4 
- 0.394792 - 0.171866 0.304012 - 0.566659 
0.989046 0.160389 0.482936 1.149435 
0.401105 - 0.492714 - 1.220438 - 0.091609 
 

map运算，和python中的map有些类似：

  df[ 4 ]. map ( int ) 
0 
1 
0 
 

apply运算：

  df. apply ( sum ) 
0.995359 
- 0.504192 
- 0.433489 
0.491167 
 

4. Group by 操作。
pandas中的group by 操作是我的最爱，不用把数据导入excel或者mysql就可以进行灵活的group by 操作，简化了分析过程。

  df[ 0 ] = [ 'A' , 'A' , 'B' ] 
 df 
 1 2 3 4 0 
 0 - 0.394792 - 0.171866 0.304012 - 0.566659 A 
 1 0.989046 0.160389 0.482936 1.149435  A 
 2 0.401105 - 0.492714 - 1.220438 - 0.091609 B 
 g = df.groupby([ 0 ]) 
 g.size() 
 A 2 
 B 1 
 g. sum () 
 1 2 3 4 
 0 
 A 0.594254 - 0.011478 0.786948 0.582776 
 B 0.401105 - 0.492714 - 1.220438 - 0.091609 
 

5. 导出到csv文件
dataframe可以使用to_csv方法方便地导出到csv文件中，如果数据中含有中文，一般encoding指定为”utf-8″,否则导出时程序会因为不能识别相应的字符串而抛出异常，index指定为False表示不用导出dataframe的index数据。

  df.to_csv(file_path, encoding='utf-8', index=False) 
 df.to_csv(file_path, index=False)

本文出自杂七杂八，转载时请注明出处及相应链接。

本文永久链接: http://www.dcharm.com/?p=13

这篇关于Pandas之DataFrame操作的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Pandas之DataFrame操作

相关文章

Go异常处理、泛型和文件操作实例代码

MySQL基本表查询操作汇总之单表查询+多表操作大全

Nginx概念、架构、配置与虚拟主机实战操作指南

pandas使用apply函数给表格同时添加多列

pandas批量拆分与合并Excel文件的实现示例

MySQL 数据库进阶之SQL 数据操作与子查询操作大全

使用Python在PDF中绘制多种图形的操作示例

Java 操作 MinIO详细步骤

在DataGrip中操作MySQL完整流程步骤(从登录到数据查询)

Go语言中如何进行数据库查询操作