R语言--高效操作数据框(dplyr包)(2)

2023-10-16 03:50

本文主要是介绍R语言--高效操作数据框(dplyr包)(2),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文是R语言–高效操作数据框(dplyr包)系列的第二篇,介绍了列重命名、行筛选、行排序、行去重、数据合并等常见操作。

列重命名 rename

rename用来给列重命名,对于复杂情况的重命名特别有效。其中,全部列重命名采用基础方法names实现。

# 数据
tbl_df <- tibble(var1=1:4,var2=2:5,label=c("a","b","a","c"))
  • 单个模式
# 引用方式
tbl_df %>% rename(new_var1=var1,new_var2=var2) 
## # A tibble: 4 x 3
##   new_var1 new_var2 label
##      <int>    <int> <chr>
## 1        1        2 a    
## 2        2        3 b    
## 3        3        4 a    
## 4        4        5 c
# 位置方式
tbl_df %>% rename(new_var1=1,new_var2=2) 
## # A tibble: 4 x 3
##   new_var1 new_var2 label
##      <int>    <int> <chr>
## 1        1        2 a    
## 2        2        3 b    
## 3        3        4 a    
## 4        4        5 c
  • 批量模式
# 全部列
tbl_df %>% rename_all(paste,"new",sep="_") 
## # A tibble: 4 x 3
##   var1_new var2_new label_new
##      <int>    <int> <chr>    
## 1        1        2 a        
## 2        2        3 b        
## 3        3        4 a        
## 4        4        5 c
# 条件列
tbl_df %>% rename_if(is.character,paste,"new",sep="_")
## # A tibble: 4 x 3
##    var1  var2 label_new
##   <int> <int> <chr>    
## 1     1     2 a        
## 2     2     3 b        
## 3     3     4 a        
## 4     4     5 c
# 指定列
tbl_df %>% rename_at(c("var1","var2"),paste,"new",sep="_") 
## # A tibble: 4 x 3
##   var1_new var2_new label
##      <int>    <int> <chr>
## 1        1        2 a    
## 2        2        3 b    
## 3        3        4 a    
## 4        4        5 c
# 基础方法全部列重命名
tbl_df %>% `names<-`(c("new_var1","new_var2","new_label"))
## # A tibble: 4 x 3
##   new_var1 new_var2 new_label
##      <int>    <int> <chr>    
## 1        1        2 a        
## 2        2        3 b        
## 3        3        4 a        
## 4        4        5 c

行筛选 filter

filter函数用来对数据框行进行条件筛选,选择出数据框的子集。

# 数据
tbl_df <- tibble(var1=1:4,var2=2:5,var3=3:6)
  • 单个模式
tbl_df %>% filter(var1>1) # 单条件
## # A tibble: 3 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     2     3     4
## 2     3     4     5
## 3     4     5     6
tbl_df %>% filter(var1>1,var2<5) # 多条件
## # A tibble: 2 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     2     3     4
## 2     3     4     5
tbl_df %>% filter(var1>1 & var2<5) # 多条件(逻辑运算符)
## # A tibble: 2 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     2     3     4
## 2     3     4     5
tbl_df %>% filter(var1>mean(var1)) # 引用列
## # A tibble: 2 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     3     4     5
## 2     4     5     6
var1 <- 3
tbl_df %>% filter(var1>!!var1) # 非引用列
## # A tibble: 1 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     4     5     6
tbl_df %>% filter(row_number()==1) # 第一行
## # A tibble: 1 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     1     2     3
tbl_df %>% filter(row_number()==n()) # 最后一行
## # A tibble: 1 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     4     5     6
tbl_df %>% filter(between(row_number(),2,n())) # 第2到最后一行
## # A tibble: 3 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     2     3     4
## 2     3     4     5
## 3     4     5     6
  • 批量模式
# 全部列
tbl_df %>% filter_all(all_vars(.>1)) # 取交集(.代表任意列)
## # A tibble: 3 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     2     3     4
## 2     3     4     5
## 3     4     5     6
tbl_df %>% filter_all(any_vars(.>1)) # 取并集
## # A tibble: 4 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     1     2     3
## 2     2     3     4
## 3     3     4     5
## 4     4     5     6
# 条件列
tbl_df %>% filter_if(~min(.)>1,all_vars(.>3)) # 条件下取交集
## # A tibble: 2 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     3     4     5
## 2     4     5     6
tbl_df %>% filter_if(~min(.)>1,~.>3) # 结果同上
## # A tibble: 2 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     3     4     5
## 2     4     5     6
# 指定列
tbl_df %>% filter_at(c(1,2),all_vars(.>3))  # 指定列取交集
## # A tibble: 1 x 3
##    var1  var2  var3
##   <int> <int> <int>
## 1     4     5     6

行排序 arrange

arrange函数用来给数据框行排序。

# 数据
tbl_df <- tibble(var1=c(2,3,1,4),var2=2:5,label=c("a","b","a","c"))
  • 单个模式
tbl_df %>% arrange(label) # 单列升序排序
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <int> <chr>
## 1     2     2 a    
## 2     1     4 a    
## 3     3     3 b    
## 4     4     5 c
tbl_df %>% arrange(desc(label)) # 单列降序排序
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <int> <chr>
## 1     4     5 c    
## 2     3     3 b    
## 3     2     2 a    
## 4     1     4 a
tbl_df %>% arrange(label,var1) # 多列组合排序(都升序)
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <int> <chr>
## 1     1     4 a    
## 2     2     2 a    
## 3     3     3 b    
## 4     4     5 c
tbl_df %>% arrange(label,desc(var1)) # 多列组合排序(label升序,var1降序)
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <int> <chr>
## 1     2     2 a    
## 2     1     4 a    
## 3     3     3 b    
## 4     4     5 c
  • 批量模式
# 全部列
tbl_df %>% arrange_all() # 升序
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <int> <chr>
## 1     1     4 a    
## 2     2     2 a    
## 3     3     3 b    
## 4     4     5 c
tbl_df %>% arrange_all(desc) # 降序
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <int> <chr>
## 1     4     5 c    
## 2     3     3 b    
## 3     2     2 a    
## 4     1     4 a
# 条件列
tbl_df %>% arrange_if(is.character) # 升序
## 3     3     3 b    
## 4     4     5 c
tbl_df %>% arrange_if(is.character,desc) # 降序
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <int> <chr>
## 1     4     5 c    
## 2     3     3 b    
## 3     2     2 a    
## 4     1     4 a
# 指定列
tbl_df %>% arrange_at(c(1,2)) # 升序
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <int> <chr>
## 1     1     4 a    
## 2     2     2 a    
## 3     3     3 b    
## 4     4     5 c
tbl_df %>% arrange_at(c(1,2),desc) # 降序
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <int> <chr>
## 1     4     5 c    
## 2     3     3 b    
## 3     2     2 a    
## 4     1     4 a

行去重 distinct

distince函数用来给数据框行去重。

# 数据
tbl_df <- tibble(var1=c(1,1,3,4,4),var2=c(2,2,7,8,7),label=c("a","a","b","c","a"))
  • 单个模式
tbl_df %>% distinct() # 全部列整行去重
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <dbl> <chr>
## 1     1     2 a    
## 2     3     7 b    
## 3     4     8 c    
## 4     4     7 a
tbl_df %>% distinct(label) # 单列去重(返回该列)
## # A tibble: 3 x 1
##   label
##   <chr>
## 1 a    
## 2 b    
## 3 c
tbl_df %>% distinct(var1,var2) # 多列去重(返回多列)
## # A tibble: 4 x 2
##    var1  var2
##   <dbl> <dbl>
## 1     1     2
## 2     3     7
## 3     4     8
## 4     4     7
tbl_df %>% distinct(label,.keep_all = TRUE) # 单列去重(返回所有列)
## # A tibble: 3 x 3
##    var1  var2 label
##   <dbl> <dbl> <chr>
## 1     1     2 a    
## 2     3     7 b    
## 3     4     8 c
tbl_df %>% distinct(var1,var2,.keep_all = TRUE) # 多列去重(返回所有列)
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <dbl> <chr>
## 1     1     2 a    
## 2     3     7 b    
## 3     4     8 c    
## 4     4     7 a
tbl_df %>% distinct(diff=var2-var1,.keep_all = TRUE) # 运算后去重(返回所有列)
## # A tibble: 3 x 4
##    var1  var2 label  diff
##   <dbl> <dbl> <chr> <dbl>
## 1     1     2 a         1
## 2     3     7 b         4
## 3     4     7 a         3
  • 批量模式
# 全部列
tbl_df %>% distinct_all(rev) # 整行去重后转置
## # A tibble: 4 x 3
##    var1  var2 label
##   <dbl> <dbl> <chr>
## 1     4     7 a    
## 2     4     8 c    
## 3     3     7 b    
## 4     1     2 a
# 条件列
tbl_df %>% distinct_if(is.numeric) # 数值列去重
## # A tibble: 4 x 2
##    var1  var2
##   <dbl> <dbl>
## 1     1     2
## 2     3     7
## 3     4     8
## 4     4     7
# 指定列
tbl_df %>% distinct_at(c(1,2)) # 指定列去重
## # A tibble: 4 x 2
##    var1  var2
##   <dbl> <dbl>
## 1     1     2
## 2     3     7
## 3     4     8
## 4     4     7

数据框合并 bind_rows/bind_cols

bind_rows和bind_cols函数用来合并数据框。

  • 按行合并
# 数据框
df1 <- tibble(x=1:2,y=2:3)
df2 <- tibble(x=3:4,y=4:5)
# 向量
v1 <- c(x=1,y=2)
v2 <- c(x=3,y=4)
# 应用于数据框
bind_rows(df1,df2) # 单个合并
## # A tibble: 4 x 2
##       x     y
##   <int> <int>
## 1     1     2
## 2     2     3
## 3     3     4
## 4     4     5
bind_rows(list(df1,df2)) # list合并
## # A tibble: 4 x 2
##       x     y
##   <int> <int>
## 1     1     2
## 2     2     3
## 3     3     4
## 4     4     5
# 应用于向量
bind_rows(v1,v2) # 单个合并
## # A tibble: 2 x 2
##       x     y
##   <dbl> <dbl>
## 1     1     2
## 2     3     4
bind_rows(!!!list(v1,v2)) # list合并
## # A tibble: 2 x 2
##       x     y
##   <dbl> <dbl>
## 1     1     2
## 2     3     4
# 向量,数据框混合应用
bind_rows(v1,df1,v2)# 单个合并
## # A tibble: 4 x 2
##       x     y
##   <dbl> <dbl>
## 1     1     2
## 2     1     2
## 3     2     3
## 4     3     4
bind_rows(!!!list(v1,df1,v2)) # list合并
## # A tibble: 4 x 2
##       x     y
##   <dbl> <dbl>
## 1     1     2
## 2     1     2
## 3     2     3
## 4     3     4
# 增加分组名
bind_rows(df1,df2,.id = "group")
## # A tibble: 4 x 3
##   group     x     y
##   <chr> <int> <int>
## 1 1         1     2
## 2 1         2     3
## 3 2         3     4
## 4 2         4     5
  • 按列合并
# 数据框
df1 <- tibble(x=1:2,y=2:3)
df2 <- tibble(a=3:4,b=4:5)
# 应用于数据框
bind_cols(df1,df2) # 枚举多个
## # A tibble: 2 x 4
##       x     y     a     b
##   <int> <int> <int> <int>
## 1     1     2     3     4
## 2     2     3     4     5
bind_cols(list(df1,df2)) # 多个组成list
## # A tibble: 2 x 4
##       x     y     a     b
##   <int> <int> <int> <int>
## 1     1     2     3     4
## 2     2     3     4     5

在这里插入图片描述

这篇关于R语言--高效操作数据框(dplyr包)(2)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/218840

相关文章

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Java操作Word文档的全面指南

《Java操作Word文档的全面指南》在Java开发中,操作Word文档是常见的业务需求,广泛应用于合同生成、报表输出、通知发布、法律文书生成、病历模板填写等场景,本文将全面介绍Java操作Word文... 目录简介段落页头与页脚页码表格图片批注文本框目录图表简介Word编程最重要的类是org.apach

Go语言中make和new的区别及说明

《Go语言中make和new的区别及说明》:本文主要介绍Go语言中make和new的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1 概述2 new 函数2.1 功能2.2 语法2.3 初始化案例3 make 函数3.1 功能3.2 语法3.3 初始化

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

mysql表操作与查询功能详解

《mysql表操作与查询功能详解》本文系统讲解MySQL表操作与查询,涵盖创建、修改、复制表语法,基本查询结构及WHERE、GROUPBY等子句,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随... 目录01.表的操作1.1表操作概览1.2创建表1.3修改表1.4复制表02.基本查询操作2.1 SE

Go语言中nil判断的注意事项(最新推荐)

《Go语言中nil判断的注意事项(最新推荐)》本文给大家介绍Go语言中nil判断的注意事项,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.接口变量的特殊行为2.nil的合法类型3.nil值的实用行为4.自定义类型与nil5.反射判断nil6.函数返回的

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查