PostgreSQL 进阶 - 模式匹配,过滤敏感数据,数据清理

本文主要是介绍PostgreSQL 进阶 - 模式匹配,过滤敏感数据,数据清理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 模式匹配

SELECT phone_number FROM customers;

在这里插入图片描述

使用正则表达式替换所有非数字字符
这样可以清理和标准化电话号码数据,去除任何非数字字符,只保留数字
UPDATE customers
SET phone_number =
REGEXP_REPLACE(phone_number, '[^0-9]', '', 'g')
WHERE phone_number ~ '[^0-9]';
  • 使用正则表达式 [^0-9] 匹配任何非数字字符,并将其替换为空字符串 ‘’。‘g’ 表示全局替换,即所有匹配的地方都会被替换。
  • phone_number ~ ‘[^0-9]’:这是一个正则表达式匹配条件,它匹配 phone_number 列中包含任何非数字字符的值。
SELECT phone_number FROM customers;

在这里插入图片描述

使用正则表达式匹配包含 10 个数字字符的电话号码,并将其格式化为 xxx-xxx-xxxx 的形式
UPDATE customers
SET phone_number =
REGEXP_REPLACE(phone_number, '([0-9]{3})([0-9]{3})([0-9]{4})',
'\1-\2-\3')
WHERE phone_number ~'^[0-9]{10}$';
  • 使用正则表达式 ([0-9]{3})([0-9]{3})([0-9]{4}) 匹配电话号码的特定模式
  • 使用 \1-\2-\3 替换该模式,其中 \1、\2 和 \3 是正则表达式中捕获的三组数字
  • phone_number ~ ‘^[0-9]{10}$’:这是一个正则表达式匹配条件,它匹配 phone_number 列中包含且只包含 10 个数字字符的值。

在这里插入图片描述

2. 过滤敏感数据

在这里插入图片描述

SELECT
CONCAT(firstname, ' ', UPPER(SUBSTRING(lastname, 1, 1)), '.')
AS fullname,
email,
(SELECT CONCAT('***-***-',
RIGHT(phone_number, 4)) AS masked_phone_number)
FROM customers;
  • SUBSTRING() 函数用于提取 lastname 的第一个字符。第一个1 是起始位置参数,指定要提取的子字符串的起始位置。在这里,它是 lastname 字符串中的第一个字符。
    第二个1 是长度参数,指定要提取的子字符串的长度。在这里,它表示只提取一个字符。
  • 查询结果将以 ***-***- 开头,后跟原始 phone_number 值的最后四位数字。
    在这里插入图片描述

3. 数据清理

SELECT order_id, street, city, state, zip_code FROM orders;

在这里插入图片描述

UPDATE orders
SET
street = INITCAP(TRIM(street)),
city = INITCAP(TRIM(city)),
state = UPPER(TRIM(state)),
zip_code = SUBSTRING(REGEXP_REPLACE(TRIM(zip_code), '[^0-9]', '', 'g'), 1, 5)
WHERE (
street != INITCAP(TRIM(street)) OR
city != INITCAP(TRIM(state)) OR
state != UPPER(TRIM(state)) OR
SUBSTRING(REGEXP_REPLACE(TRIM(zip_code), '[^0-9]', '', 'g'), 1, 5) != zip_code OR
LENGTH(zip_code) != 5);
  • street = INITCAP(TRIM(street)),将街道名字的首字母大写,并去除首尾空格。
  • 去除邮政编码中的非数字字符,并截取前5位数字作为新的邮政编码
    在这里插入图片描述

4. 产生虚拟数据

SELECT * FROM bookmarks;

在这里插入图片描述

INSERT INTO bookmarks (url, name, description)
SELECT 'http://example.com/' || generate_series AS url,
'Bookmark ' || generate_series AS name,
'Description for Bookmark ' || generate_series AS description FROM generate_series(1,50) AS generate_series
RETURNING *;

通过从1到50生成一系列数字,将生成的数字与预定义的字符串连接起来,并将结果分别插入“url”、“name” 和 “description” 字段。
在这里插入图片描述

5. 密码加密

SELECT * FROM users;

在这里插入图片描述

ALTER TABLE users
ADD COLUMN password_hash VARCHAR(255),
ADD COLUMN password_salt VARCHAR(255);

在这里插入图片描述

UPDATE users
SET password_salt = substr(md5(random()::text), 1, 16);
  • 将“password_salt”字段设置为一个随机生成的字符串,该字符串是通过将一个随机数转换为文本格式后进行MD5加密,并截取前16位字符得到的。
UPDATE users
SET password_hash = md5(concat(password_salt, password))
WHERE password_hash IS NULL;
  • 将“password_hash”字段设置为“password_salt”和“password”字段拼接后进行MD5加密得到的结果。

在这里插入图片描述

6. 取消正在运行的queries

SELECT pid, query, xact_start, wait_event, wait_event_type
FROM pg_stat_activity
WHERE backend_type = 'client backend'
AND wait_event IS NOT NULL;
  • 从“pg_stat_activity”视图中选择特定列的数据。它选择了“pid”(进程ID)、“query”(查询语句)、“xact_start”(事务开始时间)、“wait_event”(等待事件)和“wait_event_type”(等待事件类型)列。
    在这里插入图片描述
SELECT pg_cancel_backend(3236);
  • 执行这条 SQL 语句后,具有进程 ID 为 3236 的进程将会被取消。
    在这里插入图片描述
SELECT pid, query, xact_start, wait_event, wait_event_type
FROM pg_stat_activity
WHERE backend_type = 'client backend'
AND wait_event IS NOT NULL;

在这里插入图片描述

这篇关于PostgreSQL 进阶 - 模式匹配,过滤敏感数据,数据清理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/335674

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

使用Node.js和PostgreSQL构建数据库应用

《使用Node.js和PostgreSQL构建数据库应用》PostgreSQL是一个功能强大的开源关系型数据库,而Node.js是构建高效网络应用的理想平台,结合这两个技术,我们可以创建出色的数据驱动... 目录初始化项目与安装依赖建立数据库连接执行CRUD操作查询数据插入数据更新数据删除数据完整示例与最佳

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很