python读取列数不规则文件/python数据框分割

2023-10-31 09:12

本文主要是介绍python读取列数不规则文件/python数据框分割,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题

将探空数据读取,并按每日单纯储存,数据如下:
在这里插入图片描述
为一年数据,存在部分列的数据缺失问题。

数据读取

使用read_csv文件读取文件,由于列数存在不一致问题,需要固定最大列数:

names=["date","id","alt","lat","lon","p","t","rh","ff","dd"]
data=pd.read_csv(r'F:/Sonde2015/NYA_UAS_2015.tab',header=None,sep='\\s+',skiprows=25,names=names)

此时,data为一个134355×10的dataframe,缺失部分为nan自动补齐。

添加时间戳标签

为了便于数据框的分割提取,我们考虑添加标签,即提取对应的日期,并将其转为时间戳标签,此后,根据标签便可分割dataframe。
首先提取数据里的日期信息,用到了正则匹配:

def extract_date(text):pattern = r'\d{4}-\d{2}-\d{2}'match = re.search(pattern, text)if match:return match.group()else:return None
obsdt=data.iloc[:,0]
date={}
for i in range(0,len(obsdt)):t=extract_date(str(obsdt[i]))date[i]=datetime.strptime(t, '%Y-%m-%d')

构建并添加时间戳标签:

date=pd.Series(date)
date=date.tolist()
data.insert(0, 'dt', None)
data['dt']=data['dt'].astype('datetime64[ns]')
data['dt']=date
data=data.set_index('dt')#将date作为标签
data.index=pd.DatetimeIndex(data.index)#将标签转为时间索引
data.axes#查看

切割dataframe

使用groupby切割,此时,dataframe的标签为时间戳日期,同一标签日期的便会被提取:

DFList = [group[1] for group in data.groupby(data.index)]

此时DFList为列表,元素为分割的子数据框。

输出

将切割的dataframe直接输出即可:

for i in range(0,len(DFList)):d=DFList[i]fname=d.index[0]fname=str(fname)fname=fname[0:10]csvname=fname+'.dat'd.to_csv(csvname,sep=' ',index=False,header=True)

在这里插入图片描述
在这里插入图片描述

这篇关于python读取列数不规则文件/python数据框分割的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/314309

相关文章

Python实战之SEO优化自动化工具开发指南

《Python实战之SEO优化自动化工具开发指南》在数字化营销时代,搜索引擎优化(SEO)已成为网站获取流量的重要手段,本文将带您使用Python开发一套完整的SEO自动化工具,需要的可以了解下... 目录前言项目概述技术栈选择核心模块实现1. 关键词研究模块2. 网站技术seo检测模块3. 内容优化分析模

Python Counter 函数使用案例

《PythonCounter函数使用案例》Counter是collections模块中的一个类,专门用于对可迭代对象中的元素进行计数,接下来通过本文给大家介绍PythonCounter函数使用案例... 目录一、Counter函数概述二、基本使用案例(一)列表元素计数(二)字符串字符计数(三)元组计数三、C

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

Python内存优化的实战技巧分享

《Python内存优化的实战技巧分享》Python作为一门解释型语言,虽然在开发效率上有着显著优势,但在执行效率方面往往被诟病,然而,通过合理的内存优化策略,我们可以让Python程序的运行速度提升3... 目录前言python内存管理机制引用计数机制垃圾回收机制内存泄漏的常见原因1. 循环引用2. 全局变

使用Python的requests库来发送HTTP请求的操作指南

《使用Python的requests库来发送HTTP请求的操作指南》使用Python的requests库发送HTTP请求是非常简单和直观的,requests库提供了丰富的API,可以发送各种类型的HT... 目录前言1. 安装 requests 库2. 发送 GET 请求3. 发送 POST 请求4. 发送

python 线程池顺序执行的方法实现

《python线程池顺序执行的方法实现》在Python中,线程池默认是并发执行任务的,但若需要实现任务的顺序执行,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋... 目录方案一:强制单线程(伪顺序执行)方案二:按提交顺序获取结果方案三:任务间依赖控制方案四:队列顺序消

Python异步编程之await与asyncio基本用法详解

《Python异步编程之await与asyncio基本用法详解》在Python中,await和asyncio是异步编程的核心工具,用于高效处理I/O密集型任务(如网络请求、文件读写、数据库操作等),接... 目录一、核心概念二、使用场景三、基本用法1. 定义协程2. 运行协程3. 并发执行多个任务四、关键

从基础到进阶详解Python条件判断的实用指南

《从基础到进阶详解Python条件判断的实用指南》本文将通过15个实战案例,带你大家掌握条件判断的核心技巧,并从基础语法到高级应用一网打尽,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录​引言:条件判断为何如此重要一、基础语法:三行代码构建决策系统二、多条件分支:elif的魔法三、

Python WebSockets 库从基础到实战使用举例

《PythonWebSockets库从基础到实战使用举例》WebSocket是一种全双工、持久化的网络通信协议,适用于需要低延迟的应用,如实时聊天、股票行情推送、在线协作、多人游戏等,本文给大家介... 目录1. 引言2. 为什么使用 WebSocket?3. 安装 WebSockets 库4. 使用 We

python中的显式声明类型参数使用方式

《python中的显式声明类型参数使用方式》文章探讨了Python3.10+版本中类型注解的使用,指出FastAPI官方示例强调显式声明参数类型,通过|操作符替代Union/Optional,可提升代... 目录背景python函数显式声明的类型汇总基本类型集合类型Optional and Union(py