026—pandas 根据文本数据提取特征

本文主要是介绍026—pandas 根据文本数据提取特征，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言

在数据处理中，源数据可能具有一定便于记录但又复杂的结构，我们在后续使用数据时还需要进一步进行处理。在本例中，要根据一列数据提取出数据中的相关特征，我们来看看 pandas 是如何完成的。

需求：

以上数据的 a
列是包含复杂信息的字符串类型列。每个值由连字符连接信息，每个信息由数字和字母组成，数字代表此字母的数量，有些行可能包含多个相同字母。
现在的需求是在数据后边增加一些列，每个字母为一列，值为本行对应字母的数量。
如，索引 0 行，增加 R、A、G 三列，值分别是 13（有两个 R，前边的数字需要相加）、5、4。

二、使用步骤

1.引入库

代码如下（示例）：

import pandas as pd

2.读入数据

代码如下（示例）：

df = pd.DataFrame({'a': ['6R-5A-4G-7R','2A-4G-3A','8G','1R-9A']})
df

在这里插入图片描述

# 我们先以索引 0 行的 a 列数据为测试字符串编写处理函数。
# 用连字符拆分为列表
val = '6R-5A-4G-7R'.split('-')
val

在这里插入图片描述

# 将每个字母与前边的字母相乘，得到纯字母
val = [(i[-1])*int(i[:-1]) for i in val]
val

在这里插入图片描述

# 将列表所有元素连接为一个字符串
val = ''.join(val)
val

在这里插入图片描述

# 构造 Counter 对象
from collections import Counter
val = Counter(val)
val

在这里插入图片描述

# 以上构造的 Counter 对象，它可以帮助我们计算字符串（可迭代对象）里元素的个数，形成一个我们想要字典形式。它是字典的一个子类：
isinstance(val, dict)

在这里插入图片描述

Counter.mro()

在这里插入图片描述

# 接下来，将以上处理过程封装为一个函数：
from collections import Counterdef func(val: str):val = val.split('-')val = [(i[-1])*int(i[:-1]) for i in val]val = ''.join(val)val = Counter(val)return val

# a 列应用这个函数并车为列表：
df.a.map(func).to_list()

在这里插入图片描述

# 构造为 DataFrame，将空值填充为 0 并转为整型：
right = (pd.DataFrame(df.a.map(func).to_list()).fillna(0).astype(int)
)
right

在这里插入图片描述

# 这样就生成了右表数据，最后源数据与右表数据合并：
df.merge(right, left_index=True, right_index=True)

在这里插入图片描述

总结

以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

这篇关于026—pandas 根据文本数据提取特征的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

026—pandas 根据文本数据提取特征

前言

需求：

二、使用步骤

1.引入库

2.读入数据

总结

相关文章

Linux下利用select实现串口数据读取过程

Python的pandas库基础知识超详细教程

C#使用iText获取PDF的trailer数据的代码示例

Pandas处理缺失数据的方式汇总

C++中处理文本数据char与string的终极对比指南

python库pydantic数据验证和设置管理库的用途

JAVA实现亿级千万级数据顺序导出的示例代码

SpringBoot分段处理List集合多线程批量插入数据方式

PHP轻松处理千万行数据的方法详解

C#实现千万数据秒级导入的代码