Pandas利用主表更新子表指定列小技巧

2025-05-02 17:50

本文主要是介绍Pandas利用主表更新子表指定列小技巧,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《Pandas利用主表更新子表指定列小技巧》本文主要介绍了Pandas利用主表更新子表指定列小技巧,通过创建主表和子表的DataFrame对象,并使用映射字典进行数据关联和更新,实现了从主表到子表的同...

一、前言

工作的小技巧,利用pandas读取主表和子表,利用主表的指定列,更新子表的指定列。

案例:

主表:
   uid name
0  101   编程小白
1  102   小红
2  103   小蓝

子表:
  name zb_uid
0   小白   None
1   小红   None
2   小绿   None

需求:主表的name列数据和子表name列数据数据相同时,将 主表对应的 uid 赋值给 子表的 zb_uid

二、基本案例

1. 创建主表数据

import pandas as pd

# 主表示例数据
data_sheet = {
    'uid': [101, 102, 103],
    'name': ['小白', '小红', '小蓝'],
}
df_sheet = pd.DataFrame(data_sheet)
print('主表:')
print(df_sheet)
  • data_sheet 是一个字典,其中键 'uid' 对应一个包含三个整数的列表,表示用户的唯一标识;键 'name' 对应一个包含三个字符串的列表,表示用户的姓名。
  • pd.DataFrame(data_sheet) 把 data_sheet 字典转换为 pandas 的 DataFrame 对象 df_sheetDataFrame 是一种二维表格型数据结构,类似于电子表格或 SQL 表。
  • 最后通过 print 函数打印出主表的内容。

2. 创建映射字典

# 创建一个映射字典,将 name 映射到 uid
name_uid_map = df_sheet.set_index('name')['uid'].to_dict()
print('映射字典:',name_uid_map)
  • df_sheet.set_index('name') 把 df_sheet 的 'name' 列设置为索引,这样就可以通过姓名来定位对应的行。
  • ['uid'] 选取 uid 列的数据。
  • to_dict() 把选取的数据转换为字典,字典的键是姓名,值是对应的 uid
  • 最后通过 print 函数打印出这个映射字典。

3. 创建子表数据

# 子表示例数据
data_sheet1 = {
    'name': ['小白', '小红', '小绿'],
    'zb_uid': [None,None,None]
}
df_sheet1 = pd.DataFrame(data_sheet1)
print('子表:')
print(df_sheet1)
  • data_sheet1 是一个字典,键 'name' 对应一个包含三个字符串的列表,表示用户姓名;键 'zb_uid' 对应一个China编程包含China编程三个 None 值的列表,这里 zb_uid 初始值都为空,后续会进行更新。
  • pd.DataFrame(data_sheet1) 将 data_sheet1 字典转换为 DataFrame 对象 df_sheet1
  • 最后通过 print 函数打印出子表的内容。

4. 更新子表的 zb_uid 列

# 更新子表的 zb_uid 列
df_sheet1['zb_uid'] = df_sheet1['name'].map(name_uid_map).fillna(df_sheet1['zb_uid'])
  • df_sheet1['name'].map(name_uid_map) 会根据 name_uid_map 字典,将 df_sheet1 中 'name' 列的每个值映射为对应的 uid。如果 'name' 列的值在 name_uid_map 字典中不存在,就会映射为 NaN
  • fillna(df_sheet1['zb_uid']) 把映射结果中的 NaN 值用 df_sheet1 中原来的 'zb_uid' 列的值填充。这里由于 zb_uid 初始值为 None,在 pandas 中会被视为 NaN,所以实际操作就是保留原来的 NaN 值。
  • 最后把更新后的值赋给 df_sheet1 的 'zb_uid' 列。

5. 完整代码

import pandas as pd


# 主表示例数据
data_sheet = {
    'uid': [101, 102, 103],
    'name': ['小白', '小红', '小蓝'],
}
df_sheet = pd.DataFrame(data_sheet)
print('主表:')
print(df_sheet)
# 创建一个映射字典,将 name 映射到 uid
name_uid_map = df_sheet.set_index('name')['uid'].to_dict()
print('映射字典:',name_uid_map)


# 子表示例数据
data_sheet1 = {
    'name': ['小白python', '小红', '小绿'],
    'zb_uid': [None,None,None]
}
df_sheet1 = pd.DataFrame(data_sheet1)
print('子表:')
print(df_sheet1)

# 更新子表的 zb_uid 列
df_sheet1['zb_uid'] = df_sheet1['name'].map(name_uid_map).fillna(df_sheet1['zb_uid'])

print("更新后的子表:")
print(df_sheet1)

运行结果:

主表:
  &nbs编程China编程p;uid name
0  101   小白
1  102   小红
2  103   小蓝
子表:
  name zb_uid
0   小白   None
1   小红   None
2   小绿   None
映射字典: {'小白': 101, '小红': 102, '小蓝': 103}
更新后的子表:
  name  zb_uid
0   小白   101.0
1   小红   102.0
2   小绿     NaN

6. 总结

这段代码的主要功能是根据主表中姓名和 uid 的对应关系,更新子表中 zb_uid 列的值。如果子表中的姓名在主表中存在,就用对应的 uid 填充 zb_uid;如果不存在,则保持 zb_uid 为空。

三、升级案例

在基本案例的基础上,根据名字和拼音的映射字典,更新主表和子表的name字段:

import pandas as pd


def get_namePingyingMap():
	// 下面方式是手动建映射字典,当然如果你有数据库也可以从数据库读取然后建映射字典
    name_pingying_map = {'小白':'xiaobai','小红':'xiaohong','小蓝':'xiaolan','小绿':'xiaol'}
    print('name_pingying_map映射字典:', name_pingying_map)

    return name_pingying_map


# 主表示例数据
data_sheet = {
    'uid': [101, 102, 103],
    'name': ['小白', '小红', '小蓝'],
}
df_sheet = pd.DataFrame(data_sheet)
print('主表:')
print(df_sheet)
# 更新主表的 name 列
name_pingying_map = get_namePingyingMap()
df_sheet['name'] = df_sheet['name'].map(name_pingying_map).fillna(df_sheet['name'])
print("更新后的主表:")
print(df_sheet)
# 创建一个映射字典,将 name 映射到 uid
name_uid_map = df_sheet.set_index('name')['uid'].to_dict()
print('name_uid_map映射字典:',name_uid_map)

# 子表示例数据
data_sheet1 = {
    'name': ['小白', '小红', '小绿'],
    'zb_uid': [None,None,None]
}
df_sheet1 = pd.DataFrame(data_sheet1)
print('子表:')
print(df_sheet1)

# 更新子表的 name 列
df_sheet1['name'] = df_sheet1['name'].map(name_pingying_map).fillna(df_sheet1['name'])
# 更新子表的 zb_uid 列
df_sheet1['zb_uid'] = df_sheet1['name'].map(name_uid_map).fillna(df_sheet1['zb_uid'])

print("更新后的子表:")
print(df_sheet1)

运行结果:

主表:
   uid name
0  101   小白
1  102   小红
2  103   小蓝
name_pingying_map映射字典: {'小白': 'xiaobai', '小红': 'xiaohong', '小蓝': 'xiaolan', '小绿': 'xiaolù'}
更新后的主表:
   uid      name
0  101   xiaobai
1  102  xiaohong
2  103   xiaolan
name_uid_map映射字典: {'xiaobai': 101, 'xiaohong': 102, 'xiaolan': 103}
子表:
  name zb_uid
0   小白   None
1   小红   None
2   小绿   None
更新后的子表:
       name  zb_uid
0   xiaobai   101.0
1  xiaohong   102.0
2    xiaolù     NaN

到此这篇关于Pandas利用主表更新子表指定列小技巧的文章就介绍到这了,更多相关Pandas 更新子表指定列内容请搜索China编程(www.chinasem.cn)以前的文章或继续浏览下面的相关文章希望大家以后多多支持China编程(www.chinasem.cn)!

这篇关于Pandas利用主表更新子表指定列小技巧的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1154451

相关文章

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

Golang如何对cron进行二次封装实现指定时间执行定时任务

《Golang如何对cron进行二次封装实现指定时间执行定时任务》:本文主要介绍Golang如何对cron进行二次封装实现指定时间执行定时任务问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录背景cron库下载代码示例【1】结构体定义【2】定时任务开启【3】使用示例【4】控制台输出总结背景

深度解析Python装饰器常见用法与进阶技巧

《深度解析Python装饰器常见用法与进阶技巧》Python装饰器(Decorator)是提升代码可读性与复用性的强大工具,本文将深入解析Python装饰器的原理,常见用法,进阶技巧与最佳实践,希望可... 目录装饰器的基本原理函数装饰器的常见用法带参数的装饰器类装饰器与方法装饰器装饰器的嵌套与组合进阶技巧

MySQL追踪数据库表更新操作来源的全面指南

《MySQL追踪数据库表更新操作来源的全面指南》本文将以一个具体问题为例,如何监测哪个IP来源对数据库表statistics_test进行了UPDATE操作,文内探讨了多种方法,并提供了详细的代码... 目录引言1. 为什么需要监控数据库更新操作2. 方法1:启用数据库审计日志(1)mysql/mariad

springboot项目打jar制作成镜像并指定配置文件位置方式

《springboot项目打jar制作成镜像并指定配置文件位置方式》:本文主要介绍springboot项目打jar制作成镜像并指定配置文件位置方式,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录一、上传jar到服务器二、编写dockerfile三、新建对应配置文件所存放的数据卷目录四、将配置文

Go语言代码格式化的技巧分享

《Go语言代码格式化的技巧分享》在Go语言的开发过程中,代码格式化是一个看似细微却至关重要的环节,良好的代码格式化不仅能提升代码的可读性,还能促进团队协作,减少因代码风格差异引发的问题,Go在代码格式... 目录一、Go 语言代码格式化的重要性二、Go 语言代码格式化工具:gofmt 与 go fmt(一)

python3如何找到字典的下标index、获取list中指定元素的位置索引

《python3如何找到字典的下标index、获取list中指定元素的位置索引》:本文主要介绍python3如何找到字典的下标index、获取list中指定元素的位置索引问题,具有很好的参考价值,... 目录enumerate()找到字典的下标 index获取list中指定元素的位置索引总结enumerat

如何在Mac上彻底删除Edge账户? 手动卸载Edge浏览器并清理残留文件技巧

《如何在Mac上彻底删除Edge账户?手动卸载Edge浏览器并清理残留文件技巧》Mac上的Edge账户里存了不少网站密码和个人信息,结果同事一不小心打开了,简直尴尬到爆炸,想要卸载edge浏览器并清... 如果你遇到 Microsoft Edge 浏览器运行迟缓、频繁崩溃或网页加载异常等问题,可以尝试多种方