Pandas-数据操作-字符串型(一):常用方法【str(自动过滤NaN值)、索引】

2024-09-02 01:58

本文主要是介绍Pandas-数据操作-字符串型(一):常用方法【str(自动过滤NaN值)、索引】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Pandas针对字符串配备的一套方法,使其易于对数组的每个元素进行操作。

一、str:通过str访问,且自动排除丢失/ NA值

通过str访问,且自动排除丢失/ NA值

  • 直接通过.str调用字符串方法
  • 可以对Series、Dataframe使用
  • 自动过滤NaN值
import numpy as np
import pandas as pd# 通过str访问,且自动排除丢失/ NA值
# 直接通过.str调用字符串方法
# 可以对Series、Dataframe使用
# 自动过滤NaN值s = pd.Series(['A', 'b', 'C', 'bbhello', '123', np.nan, 'hj'])
df = pd.DataFrame({'key1': list('abcdef'),'key2': ['hee', 'fv', 'w', 'hija', '123', np.nan]})
print("s = \n", s)
print('-' * 50)
print("df = \n", df)
print('-' * 200)print("s.str.count('b') = \n", s.str.count('b'))
print('-' * 50)
print("df['key2'].str.upper() = \n", df['key2'].str.upper())
print('-' * 200)# df.columns是一个Index对象,也可使用.str
df.columns = df.columns.str.upper()
print("df = \n", df)
print('-' * 200)

打印结果:

s = 
0          A
1          b
2          C
3    bbhello
4        123
5        NaN
6         hj
dtype: object
--------------------------------------------------
df = key1  key2
0    a   hee
1    b    fv
2    c     w
3    d  hija
4    e   123
5    f   NaN
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
s.str.count('b') = 0    0.0
1    1.0
2    0.0
3    2.0
4    0.0
5    NaN
6    0.0
dtype: float64
--------------------------------------------------
df['key2'].str.upper() = 0     HEE
1      FV
2       W
3    HIJA
4     123
5     NaN
Name: key2, dtype: object
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
df = KEY1  KEY2
0    a   hee
1    b    fv
2    c     w
3    d  hija
4    e   123
5    f   NaN
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Process finished with exit code 0

二、字符串索引

import numpy as np
import pandas as pd# 字符串索引s = pd.Series(['A', 'b', 'C', 'bbhello', '123', np.nan, 'hj'])
df = pd.DataFrame({'key1': list('abcdef'),'key2': ['hee', 'fv', 'w', 'hija', '123', np.nan]})# 取第一个字符
data1 = s.str[0]
print("取第一个字符: data1 = s.str[0] = \n", data1)
print('-' * 200)
# 取前两个字符
data2 = s.str[:2]
print("取前两个字符: data2 = s.str[:2] = \n", data2)
print('-' * 200)# str之后和字符串本身索引方式相同
data3 = df['key2'].str[:2]
print("data3 = df['key2'].str[:2] = \n", data3)
print('-' * 200)

打印结果:

取第一个字符: data1 = s.str[0] = 0      A
1      b
2      C
3      b
4      1
5    NaN
6      h
dtype: object
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
取前两个字符: data2 = s.str[:2] = 0      A
1      b
2      C
3     bb
4     12
5    NaN
6     hj
dtype: object
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
data3 = df['key2'].str[:2] = 0     he
1     fv
2      w
3     hi
4     12
5    NaN
Name: key2, dtype: object
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Process finished with exit code 0

这篇关于Pandas-数据操作-字符串型(一):常用方法【str(自动过滤NaN值)、索引】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128672

相关文章

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

MySQL常用字符串函数示例和场景介绍

《MySQL常用字符串函数示例和场景介绍》MySQL提供了丰富的字符串函数帮助我们高效地对字符串进行处理、转换和分析,本文我将全面且深入地介绍MySQL常用的字符串函数,并结合具体示例和场景,帮你熟练... 目录一、字符串函数概述1.1 字符串函数的作用1.2 字符串函数分类二、字符串长度与统计函数2.1

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

MySQL 内存使用率常用分析语句

《MySQL内存使用率常用分析语句》用户整理了MySQL内存占用过高的分析方法,涵盖操作系统层确认及数据库层bufferpool、内存模块差值、线程状态、performance_schema性能数据... 目录一、 OS层二、 DB层1. 全局情况2. 内存占js用详情最近连续遇到mysql内存占用过高导致

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

Python操作PDF文档的主流库使用指南

《Python操作PDF文档的主流库使用指南》PDF因其跨平台、格式固定的特性成为文档交换的标准,然而,由于其复杂的内部结构,程序化操作PDF一直是个挑战,本文主要为大家整理了Python操作PD... 目录一、 基础操作1.PyPDF2 (及其继任者 pypdf)2.PyMuPDF / fitz3.Fre