Oracle开发专题之:删除重复记录

2024-04-15 16:48

本文主要是介绍Oracle开发专题之:删除重复记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、测试环境:

假设目前我们有一个表:test,该表的结构如下:


效果如同前面两个方法一样,大量的连接、排序、分组让依靠rowid来删除重复记录变得很耗时,反而是采用方法1的情况下速度很快(本人测试了2次,都是连接测试服务器进行测试,第一次用时7.09秒,第二次用时14.656秒)。

小结:
在数据量不大的情况下,采用根据rowid或结合group by分组的方式是很快的,但是在海量数据的情况下则反而是方式一最快,因为省去了自连接、排序、分组的时间

 

SQL >   desc  test;
 Name                                      
Null ?    Type
 
-- --------------------------------------- -------- ----------------------------
 ID                                                   NUMBER
 SEQ                                                
NUMBER


现在我们向表中插入200W条数据,这200W条数据中有一半是重复的。

create   or   replace   procedure  gen_duplicated_records  as

  i 
number ;
  j 
number ;

begin
  
for  i  in   1  ..  2  loop
    
for  j  in   1  ..  1000000  loop
      
insert   into  test  values  (j, j  +   10 );
    
end  loop;
    
commit ;
  
end  loop;
end ;


我们的最终目的就是剔除这一半的重复记录。下面来看一下各种方法的使用及效率区别

二、使用临时表进行删除:

这个是最简单的思路了,创建一张临时表,将原表中的数据拷贝一半过去,再查询出来。

SQL >   set  timing  on ;
SQL
>  
SQL
>   create   table  test_2  as   select   distinct   *   from  test;

Table  created.

Elapsed: 
00 : 00 : 07.09
SQL
>  


该方法耗时7.09秒,测试数据库位于服务器上。考虑到服务器和本机位于同一个局域网内,该时间如果在真正的生产环境中应该至上延长1倍以上。

三、使用rowid进行删除:

我们知道在Oracle中,rowid是用来唯一表示一条记录的伪列,任意两条记录的rowid都是不同的,即便内容看起来一模一样。所以我们的思路是:使用表的自连接,查找那些内容相同但rowid不同的记录,即为重复记录。然后随意选择其中一个rowid代表的记录,删除另一条记录。

我们来看一下其中id=1的记录在自连接后的情况:

SQL >   select  a. * , a.rowid, b. * , b.rowid  from  test a, test b  where  a.id  =  b.id  and  a.seq  =  b.seq  and  a
.id 
=   1 ;

        ID        SEQ ROWID                      ID        SEQ ROWID
-- -------- ---------- ------------------ ---------- ---------- ------------------
          1           11  AAAGHIAAJAAAAAKAAA           1           11  AAAGHIAAJAAAAAKAAA
         
1           11  AAAGHIAAJAAAAgQAGX           1           11  AAAGHIAAJAAAAAKAAA
         
1           11  AAAGHIAAJAAAAAKAAA           1           11  AAAGHIAAJAAAAgQAGX
         
1           11  AAAGHIAAJAAAAgQAGX           1           11  AAAGHIAAJAAAAgQAGX

Elapsed: 
00 : 00 : 02.08
SQL
>  


我们看到自连接后的4条记录中有2条的rowid是不同的,说明这2条记录就是重复记录,所以我们可以通过选择其中rowid较大或较小的记录,来删除剩余的记录。但是这种方法的一个很大的缺点就是由于采用了“自连接”,对于像我这样的测试表中有200W条记录的情况,其自连接后的记录数是一个天文数字(其实本人的测试就因为等待过久而不得不取消)。

我们换另外一种方法:

DELETE   FROM  test t1 
 
WHERE  t1.ROWID  NOT   IN  (
     
SELECT   MAX (t2.rowid) 
       
FROM  test t2 
      
WHERE  t1.id  =  t2.id  AND  t1.seq  =  t2.seq);


实践证明,这种方法对大量数据的情况,效率依然是很低的。结果如同上一种方法。假如我们再结合group by呢?

SQL >   DELETE   FROM  test
  
2     WHERE  ROWID  NOT   IN  ( SELECT   MAX (ROWID)  FROM  test  GROUP   BY  id, seq);

这篇关于Oracle开发专题之:删除重复记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/906367

相关文章

sqlserver、mysql、oracle、pgsql、sqlite五大关系数据库的对象名称和转义字符

《sqlserver、mysql、oracle、pgsql、sqlite五大关系数据库的对象名称和转义字符》:本文主要介绍sqlserver、mysql、oracle、pgsql、sqlite五大... 目录一、转义符1.1 oracle1.2 sqlserver1.3 PostgreSQL1.4 SQLi

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

基于Python开发Windows自动更新控制工具

《基于Python开发Windows自动更新控制工具》在当今数字化时代,操作系统更新已成为计算机维护的重要组成部分,本文介绍一款基于Python和PyQt5的Windows自动更新控制工具,有需要的可... 目录设计原理与技术实现系统架构概述数学建模工具界面完整代码实现技术深度分析多层级控制理论服务层控制注

Linux命令rm如何删除名字以“-”开头的文件

《Linux命令rm如何删除名字以“-”开头的文件》Linux中,命令的解析机制非常灵活,它会根据命令的开头字符来判断是否需要执行命令选项,对于文件操作命令(如rm、ls等),系统默认会将命令开头的某... 目录先搞懂:为啥“-”开头的文件删不掉?两种超简单的删除方法(小白也能学会)方法1:用“--”分隔命

C#自动化实现检测并删除PDF文件中的空白页面

《C#自动化实现检测并删除PDF文件中的空白页面》PDF文档在日常工作和生活中扮演着重要的角色,本文将深入探讨如何使用C#编程语言,结合强大的PDF处理库,自动化地检测并删除PDF文件中的空白页面,感... 目录理解PDF空白页的定义与挑战引入Spire.PDF for .NET库核心实现:检测并删除空白页

Java中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例解析

《Java中的分布式系统开发基于Zookeeper与Dubbo的应用案例解析》本文将通过实际案例,带你走进基于Zookeeper与Dubbo的分布式系统开发,本文通过实例代码给大家介绍的非常详... 目录Java 中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例一、分布式系统中的挑战二

Oracle数据库在windows系统上重启步骤

《Oracle数据库在windows系统上重启步骤》有时候在服务中重启了oracle之后,数据库并不能正常访问,下面:本文主要介绍Oracle数据库在windows系统上重启的相关资料,文中通过代... oracle数据库在Windows上重启的方法我这里是使用oracle自带的sqlplus工具实现的方

Oracle Scheduler任务故障诊断方法实战指南

《OracleScheduler任务故障诊断方法实战指南》Oracle数据库作为企业级应用中最常用的关系型数据库管理系统之一,偶尔会遇到各种故障和问题,:本文主要介绍OracleSchedul... 目录前言一、故障场景:当定时任务突然“消失”二、基础环境诊断:搭建“全局视角”1. 数据库实例与PDB状态2

Python实现自动化删除Word文档超链接的实用技巧

《Python实现自动化删除Word文档超链接的实用技巧》在日常工作中,我们经常需要处理各种Word文档,本文将深入探讨如何利用Python,特别是借助一个功能强大的库,高效移除Word文档中的超链接... 目录为什么需要移除Word文档超链接准备工作:环境搭建与库安装核心实现:使用python移除超链接的

基于Go语言开发一个 IP 归属地查询接口工具

《基于Go语言开发一个IP归属地查询接口工具》在日常开发中,IP地址归属地查询是一个常见需求,本文将带大家使用Go语言快速开发一个IP归属地查询接口服务,有需要的小伙伴可以了解下... 目录功能目标技术栈项目结构核心代码(main.go)使用方法扩展功能总结在日常开发中,IP 地址归属地查询是一个常见需求: