postgresql之交叉表:crosstab

2023-11-27 16:50
文章标签 postgresql 交叉 crosstab

本文主要是介绍postgresql之交叉表:crosstab,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

postgresql之交叉表:crosstab

在学习postgresql行列转换的时候,看到了使用crosstab。所以写这篇博客巩固记录一下。
postgresql本身提供了额外的模块:tablefunc供我们使用。但是使用前,需要我们安装一下插件。

-- 导入模块
create extension tablefunc;

导入tablefunc模块后,就会在函数列表中出现以下函数,如下图。
函数列表
结合官方文档,我们一起来学习一下。

https://www.postgresql.org/docs/9.2/tablefunc.html

  • crosstab(text)

crosstab(text sql)
crosstab(text sql, int N)

这里的crosstab函数接受的是一个文本参数,参数是一个sql查询,生成以列展示的原始数据,然后通过函数得到表格式化的数据。如下图:
在这里插入图片描述
其中,sql参数是产生数据源的sql语句,此语句必须返回一个row_name列,一个category类和一个value列。N是一个过时的参数,如果提供则忽略(以前它必须和输出值列的数量想匹配,现在由调用查询函数确定)。
该函数为具有相同row_name 值的每组连续输入行生成一个输出行。它使用这些行中的值字段 从左到右填充输出值列。如果组中的行数少于输出值列数,则用空值填充额外的输出列;如果有更多行,则跳过额外的输入行。
在实践中,SQL 查询应始终指定ORDER BY 1,2以确保输入行正确排序,也就是说,将具有相同row_name的值放在一起并在行内正确排序。注意,crosstab它本身并不关注查询结果的第二列;它只是用来排序的,以控制第三列值在页面上出现的顺序。
给一个案例,先插入测试数据。

create table t1(
name varchar(255),
sub varchar(255),
score int4
);
insert into t1 values ('张三','语文',67);
insert into t1 values ('张三','数学',78);
insert into t1 values ('张三','英语',63);
insert into t1 values ('李四','语文',86);

此时,根据crosstab(text)函数可以得到如下写法:

select * from crosstab(
'select name,sub,score from t1 order by 1,2' 
)as t(name varchar,数学 int,英语 int,语文 int)

注意:

  1. 这三列顺序不能变,row_name列就是你要根据这个分组的列,后面的category是代表你要转成横向上的列名,最后value值是你填入表格中的值。

  2. 类别的数据类型要和你建的表的数据类型一致。我之前将as t(name varchar,…)写成了as t(name text,…)。想说都是文本类型,结果就是会报错。

  3. 这里使用order by了,最后你下面给定列名的时候也要按照名字拍戏写前后,例如:数学,英语,语文这个顺序写。

结果展示如下:
在这里插入图片描述
若是最后想要的数据类型和sql得到的数据类型不一致,则会报错。
在这里插入图片描述

  • crosstabN(text)

crosstabN(text sql)

这种写法比上面的那种写法会更简单,它通过自定义包装器,不需要在调用select查询的时候写出列名和类型。
期中N是限制数量,N有多少,就输出多少category列。
所以针对该函数,我们写上面这个例子的另一种写法。

select * from crosstab3(
'select name,sub,score from t1 order by 1,2' 
)

此时,我们得到的结果并没有显示,而是报错。报错信息如下:
在这里插入图片描述
报错信息的大概意思就是,text sql的rowid数据类型和查询返回的rowid的数据类型不一致。
此时发现,要使用crosstabN(text)这个函数,不仅是传入的数据只有三列(row_name,category,value),并且这三列数据类型都必须是text类型,所以要方便还是要付出点代价的,它限制了你的数据类型。所以我们取text类型数据试试。重新创建新的测试数据。

create table t2(
name text,
sub text,
score text
);
insert into t2 values ('张三','语文',67);
insert into t2 values ('张三','数学',78);
insert into t2 values ('张三','英语',63);
insert into t2 values ('李四','语文',86);
-- crosstabN
-- 都要数据text类型
select *  from crosstab3(
'select name,sub,score from t2'
)

得到的结果如下图:
在这里插入图片描述
这个结果是正确结果,但是在此过程中,我又发现了一个问题,那就是正常情况下,我们会为了排序正常,我们会使用order by 1,2或者直接order by列名,如我这里就是order by name,sub,但是在crosstabN(text sql)这个函数中,你要小心使用order by,这里有个大坑等着你。

-- 若数值缺失会出现排错的情况
select *  from crosstab3(
'select name,sub,score from t2 order by name,sub'
);
-- 或
select *  from crosstab3(
'select name,sub,score from t2 order by 1,2'
)

得到的结果都如下:
在这里插入图片描述
因为order by了sub,课程排序中,因为在字符串排序中,是按照<数学-英语-语文>如此排序的,然后李四有成绩有缺失的,所以得到的结果第一列对于李四的语文成绩,却是张三的数学成绩。所以这个crosstabN(text sql)函数还是要谨慎使用。
到现在为止,我们适用的都是最后结果只有三列的情况,但是日常工作中,我们可能最后需要的结果是有四列、五列、甚至更多的,那改怎么办呢?首先,先创建测试数据。

create table t3(
name varchar(255),
gender varchar(255),
sub varchar(255),
score int4
);
insert into t3 values('张三','男','语文',93);
insert into t3 values('张三','男','数学',28);
insert into t3 values('李四','女','数学',78);
insert into t3 values('张三','男','英语',22);
insert into t3 values('李四','女','语文',55);
insert into t3 values('王五','男','英语',60);

按照之前crosstab(text sql)的方法,我们应该写的方法如下:

select * from crosstab(
'select name,gender,sub,score from t3 order by name,gender,sub'
) as s(name varchar,gender varchar,数学 int,英语 int,语文 int)

此时,你会得到一个报错的结果,它告诉你,你提供的sql必须只有三列:rowid,category,values,而你还有额外的一个性别类,所以此时crosstab(text sql)已经不够用了,我们需要引入一个新的函数crosstab(text,text)

  • crosstab(text source_sql,text category_sql)

一起来看看官方文档的解释:
单参数形式的主要限制 crosstab是它同样处理组中的所有值,将每个值插入到第一个可用列中。如果您希望值列与特定的数据类别相对应,并且某些组可能没有某些类别的数据,则效果不佳。crosstab通过双参数形式提供与输出列对应的类别的显式列表来处理这种情况。
source_sql是产生源数据集的 SQL 语句。此语句必须返回一个row_name列、一个category列和一个value列。它也可能有一个或多个“extra”列。row_name 列必须是第一个。category列和value列必须是最后两列,按顺序排列。row_name和category之间的任何列都被视为"extra"。对于具有相同row_name的所有行, “extra”列应相同价值(此时的我,还没发现这句话的重要性,等等我们一起看看)。
在这里插入图片描述

category_sql是生成类别集的 SQL 语句。此语句必须只返回一列。它必须至少产生一行,否则会产生错误。此外,它不能产生重复的值,否则会产生错误。
在这里插入图片描述

SELECT * FROM crosstab('...', '...')AS ct(row_name text, extra text, cat1 text, cat2 text, cat3 text, cat4 text);

按照上面的语法,我们写这个案例。

select * from crosstab(
'select name,gender,sub,score from t3 order by name',
'select distinct sub from t3 order by 1'
) as s(name varchar,gender varchar,数学 int,英语 int,语文 int)-- 注意category类最好排序,并且按照排序顺序写,不容易出错
select * from crosstab(
'select name,gender,sub,score from t3 order by name',
'select distinct sub from t3 order by 1'
) as s(name varchar,gender varchar,数学 int,英语 int,语文 int)

此时结果如下,得到正确的结果。

在这里插入图片描述
然后,我们再做一个案例,看看这个函数的问题。插入测试数据。

drop table t;
create table t(
name varchar(255),
term varchar(255),
sub varchar(255),
score int4
);
insert into t values('张三','第一学期','语文',93);
insert into t values('张三','第一学期','数学',28);
insert into t values('李四','第一学期','数学',78);
insert into t values('张三','第二学期','语文',22);
insert into t values('李四','第二学期','语文',55);
insert into t values('李四','第二学期','数学',73);
insert into t values('李四','第二学期','英语',100);
insert into t values('王五','第三学期','英语',60);

按照crosstab(text,text)的写法,我们再一起来做做这个案例。

select * from 
crosstab(
'select name,term,sub,score from t order by name',
'select distinct sub from t  order by 1'
)as s(name varchar,term varchar,math int4,english int4,chinese int4)

按照这个sql,我们得到的结果如下图。
在这里插入图片描述
语法没错误,并且出结果了,但是!!我的结果!!你是不是少了点东西啊,你显示得不全啊。问题在哪里啊,然后我再去看官方文档,才懂了这句话的重要性(对于具有相同row_name的所有行, “extra”列应是相同的值),这就是我前面那个案例成功,这个案例有问题的原因。
然后我再仔细阅读了一下,发现它说这个函数为具有相同row_name 值的crosstab输入行生成一个输出行。输出的row_name 列,以及任何“extra”列,都是从组的第一行复制而来。输出 value列填充有来自具有匹配类别值的行的值字段。如果行的category与category_sql查询的任何输出都不匹配,则忽略其值。组的任何输入行中不存在匹配类别的输出列用空值填充。所以这个真相大白,它就是匹配每组的第一个row_name,每组只生成一行。
然后我发现可以通过将category列的值指定可以实现这个问题。代码如下:

select * from crosstab(
'select name,term,sub,score from t ',$$values('语文'),('数学'),('英语')$$)
as ct(name varchar,term varchar,语文 int,数学 int,英语 int)

此时得到的结果如下:
在这里插入图片描述
这个方法是可以实现的,但是这个方法也不是万能的,所以还是要多试试哦。实在不行,就老老实实用case…when或者string_agg+split_part来处理这类数据。
今天的文章到这里就结束了,若是对tablefunc的其他函数感兴趣,可以看看官方文档哦~
感谢阅读~

这篇关于postgresql之交叉表:crosstab的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/428122

相关文章

PostgreSQL 默认隔离级别的设置

《PostgreSQL默认隔离级别的设置》PostgreSQL的默认事务隔离级别是读已提交,这是其事务处理系统的基础行为模式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一 默认隔离级别概述1.1 默认设置1.2 各版本一致性二 读已提交的特性2.1 行为特征2.2

PostgreSQL中MVCC 机制的实现

《PostgreSQL中MVCC机制的实现》本文主要介绍了PostgreSQL中MVCC机制的实现,通过多版本数据存储、快照隔离和事务ID管理实现高并发读写,具有一定的参考价值,感兴趣的可以了解一下... 目录一 MVCC 基本原理python1.1 MVCC 核心概念1.2 与传统锁机制对比二 Postg

一文详解PostgreSQL复制参数

《一文详解PostgreSQL复制参数》PostgreSQL作为一款功能强大的开源关系型数据库,其复制功能对于构建高可用性系统至关重要,本文给大家详细介绍了PostgreSQL的复制参数,需要的朋友可... 目录一、复制参数基础概念二、核心复制参数深度解析1. max_wal_seChina编程nders:WAL

PostgreSQL 序列(Sequence) 与 Oracle 序列对比差异分析

《PostgreSQL序列(Sequence)与Oracle序列对比差异分析》PostgreSQL和Oracle都提供了序列(Sequence)功能,但在实现细节和使用方式上存在一些重要差异,... 目录PostgreSQL 序列(Sequence) 与 oracle 序列对比一 基本语法对比1.1 创建序

Android NDK版本迭代与FFmpeg交叉编译完全指南

《AndroidNDK版本迭代与FFmpeg交叉编译完全指南》在Android开发中,使用NDK进行原生代码开发是一项常见需求,特别是当我们需要集成FFmpeg这样的多媒体处理库时,本文将深入分析A... 目录一、android NDK版本迭代分界线二、FFmpeg交叉编译关键注意事项三、完整编译脚本示例四

最详细安装 PostgreSQL方法及常见问题解决

《最详细安装PostgreSQL方法及常见问题解决》:本文主要介绍最详细安装PostgreSQL方法及常见问题解决,介绍了在Windows系统上安装PostgreSQL及Linux系统上安装Po... 目录一、在 Windows 系统上安装 PostgreSQL1. 下载 PostgreSQL 安装包2.

MySQL中的交叉连接、自然连接和内连接查询详解

《MySQL中的交叉连接、自然连接和内连接查询详解》:本文主要介绍MySQL中的交叉连接、自然连接和内连接查询,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、引入二、交php叉连接(cross join)三、自然连接(naturalandroid join)四

Win11安装PostgreSQL数据库的两种方式详细步骤

《Win11安装PostgreSQL数据库的两种方式详细步骤》PostgreSQL是备受业界青睐的关系型数据库,尤其是在地理空间和移动领域,:本文主要介绍Win11安装PostgreSQL数据库的... 目录一、exe文件安装 (推荐)下载安装包1. 选择操作系统2. 跳转到EDB(PostgreSQL 的

Ubuntu 22.04 服务器安装部署(nginx+postgresql)

《Ubuntu22.04服务器安装部署(nginx+postgresql)》Ubuntu22.04LTS是迄今为止最好的Ubuntu版本之一,很多linux的应用服务器都是选择的这个版本... 目录是什么让 Ubuntu 22.04 LTS 变得安全?更新了安全包linux 内核改进一、部署环境二、安装系统

对postgresql日期和时间的比较

《对postgresql日期和时间的比较》文章介绍了在数据库中处理日期和时间类型时的一些注意事项,包括如何将字符串转换为日期或时间类型,以及在比较时自动转换的情况,作者建议在使用数据库时,根据具体情况... 目录PostgreSQL日期和时间比较DB里保存到时分秒,需要和年月日比较db里存储date或者ti