ORACLE 优化 ---直方图

2024-06-18 23:32
文章标签 oracle 优化 直方图

本文主要是介绍ORACLE 优化 ---直方图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

/*直方图*/

/*前面提到,当某个列基数很低,该列数据分布就会不均衡。数据分布不均衡会导致在查询该列的时候,要么走全表扫描要么走索引扫描,这个时候很容易走错执行计划*/。
/*
如果没有对基数低的列收集直方图统计信息,基于成本的优化器(CBO)会认为该列数据分布是均衡的。*/

/*首先我们对测试表test收集统计信息,在收集统计信息的时候,不收集列的直方图,语句for all columns size 1 表示对所有列都不收集统计信息。*/
BEGIN
  DBMS_STATS.gather_table_stats(ownname => 'SCOTT',
                                tabname => 'TEST',
                                estimate_percent => 100,
                                method_opt => 'for all columns size 1',
                                no_invalidate => FALSE,
                                degree => 1,
                                cascade => TRUE);
END
;
/


/*Histogram 为none表示没有收集直方图。*/

select a.column_name,
       b.NUM_ROWS,
       a.num_distinct Cardinality,
       round(a.num_distinct / b.NUM_ROWS * 100,2) selectivity,
       a.HISTOGRAM,
       a.num_buckets
from dba_tab_col_statistics a, dba_tables b
where a.owner = b.OWNER
and a.table_name = b.TABLE_NAME
and a.owner = 'SCOTT'
and a.table_name = 'TEST';

owner列基数很低,现在我们对owner进行查询。

SQL> set autot trace
SQL> select * from test where owner = 'SCOTT';

7 rows selected.


Execution Plan
----------------------------------------------------------
Plan hash value: 1357081020

--------------------------------------------------------------------------
| Id  | Operation         | Name | Rows  | Bytes | Cost (%CPU)| Time     |
--------------------------------------------------------------------------
|   0 | SELECT STATEMENT  |      |  2499 |   236K|   289   (1)| 00:00:04 |
|*  1 |  TABLE ACCESS FULL| TEST |  2499 |   236K|   289   (1)| 00:00:04 |
--------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   1 - filter("OWNER"='SCOTT')


Statistics
----------------------------------------------------------
          1  recursive calls
          0  db block gets
       1038  consistent gets
          0  physical reads
          0  redo size
       1907  bytes sent via SQL*Net to client
        523  bytes received via SQL*Net from client
          2  SQL*Net roundtrips to/from client
          0  sorts (memory)
          0  sorts (disk)
          7  rows processed

SQL> 

请注意看粗体部分,查询owner= 'SCOTT'返回了7条数据,但是CBO在计算Rows的时候认为owner = 'SCOTT' 返回2499条数据,Rows 估算得不是特别的准确。从72477条数据里面查询7条数据,应该走索引,所以现在我们对owner 列创建索引。

SQL> create index idx_owner on test(owner);

Index created.

SQL> 

现在再来查询一下。

SQL> set pagesize 200
SQL> set line 300
SQL> select * from test where owner = 'SCOTT';

7 rows selected.


Execution Plan
----------------------------------------------------------
Plan hash value: 3932013684

-----------------------------------------------------------------------------------------
| Id  | Operation                   | Name      | Rows  | Bytes | Cost (%CPU)| Time     |
-----------------------------------------------------------------------------------------
|   0 | SELECT STATEMENT            |           |  2499 |   236K|    73   (0)| 00:00:01 |
|   1 |  TABLE ACCESS BY INDEX ROWID| TEST      |  2499 |   236K|    73   (0)| 00:00:01 |
|*  2 |   INDEX RANGE SCAN          | IDX_OWNER |  2499 |       |     6   (0)| 00:00:01 |
-----------------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   2 - access("OWNER"='SCOTT')


Statistics
----------------------------------------------------------
          0  recursive calls
          0  db block gets
          6  consistent gets
          0  physical reads
          0  redo size
       2174  bytes sent via SQL*Net to client
        523  bytes received via SQL*Net from client
          2  SQL*Net roundtrips to/from client
          0  sorts (memory)
          0  sorts (disk)
          7  rows processed

SQL> 

现在我们查询owner = 'SYS'。

SQL> select * from test where owner = 'SYS';

30812 rows selected.


Execution Plan
----------------------------------------------------------
Plan hash value: 3932013684

-----------------------------------------------------------------------------------------
| Id  | Operation                   | Name      | Rows  | Bytes | Cost (%CPU)| Time     |
-----------------------------------------------------------------------------------------
|   0 | SELECT STATEMENT            |           |  2499 |   236K|    73   (0)| 00:00:01 |
|   1 |  TABLE ACCESS BY INDEX ROWID| TEST      |  2499 |   236K|    73   (0)| 00:00:01 |
|*  2 |   INDEX RANGE SCAN          | IDX_OWNER |  2499 |       |     6   (0)| 00:00:01 |
-----------------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   2 - access("OWNER"='SYS')


Statistics
----------------------------------------------------------
          1  recursive calls
          0  db block gets
       4927  consistent gets
         69  physical reads
          0  redo size
    3502852  bytes sent via SQL*Net to client
      23117  bytes received via SQL*Net from client
       2056  SQL*Net roundtrips to/from client
          0  sorts (memory)
          0  sorts (disk)
      30812  rows processed

SQL> 

注意粗体字体部分,查询owner = 'SYS'返回30812条数据,从72477条数据里面返回30812条数据能走索引吗?很明显应该走全表扫描。也就是说该执行计划是错误的。

为什么查询owner= 'SYS'的执行计划是错误的呢?因为owner 这个列基数很低,只有29,而表的总行数是72477.前文着重强调过,当列没有收集直方图统计信息的时候,CBO会认为该数据分布是均衡的。正是因为CBO认为owner列数据分布是均衡的,不管owner等于任何值,CBO估算的Rows永远都是2499。而这2499是怎么来的呢?答案如下:

现在大家也知道了,执行计划里面的Rows是假的。执行计划中的Rows是根据统计信息以及一些数学公式计算出来的。很多DBA 到现在都还不知道执行计划中的Rows 是假的这个真相。真是令人遗憾。

在做SQL优化的时候,经常需要做的工作就是帮助CBO计算出比较准确的Rows。注意:我们说的是比较准确的Rows.CBO是无法得到精确的Rows的,因为对表收集统计信息的时候,统计信息一般都不会按照100%的标准采样收集,即使按照100%的标准采样收集了表的统计信息,表中数据也随时在发生变更。另外计算Rows的数学公式目前也是有缺陷的,CBO永远不可能计算得到精确的Rows.

如果CBO每次都能计算得到精确的Rows,那么相信我们这个时候只需要关心业务逻辑、表设计、SQL写法以及如何建立索引了,再也不用担心SQL会走错执行计划了。

为了让CBO选择正确的执行计划,我们需要对owner列收集直方图信息,从而告知CBO该列数据分布不均衡。让CBO在计算Rows的时候参考直方图统计。现在我们对owner列收集直方图。

SQL> BEGIN
  2    DBMS_STATS.gather_table_stats(ownname => 'SCOTT',
  3                                  tabname => 'TEST',
  4                                  estimate_percent => 100,
  5                                  method_opt => 'for all columns size 1',
  6                                  no_invalidate => FALSE,
  7                                  degree => 1,
  8                                  cascade => TRUE);
  9  END;
 10  /

PL/SQL procedure successfully completed.

SQL> 

查看一下owner 列的直方图信息。

select a.column_name,
       b.NUM_ROWS,
       a.num_distinct Cardinality,
       round(a.num_distinct / b.NUM_ROWS * 100,2) selectivity,
       a.HISTOGRAM,
       a.num_buckets
from dba_tab_col_statistics a, dba_tables b
where a.owner = b.OWNER
and a.table_name = b.TABLE_NAME
and a.owner = 'SCOTT'
and a.table_name = 'TEST';

 

现在我们再来查询上面的SQL,看执行计划是否还会走错并且验证Rows是否还会算错。

SQL> select * from test where owner = 'SCOTT';

7 rows selected.


Execution Plan
----------------------------------------------------------
Plan hash value: 3932013684

-----------------------------------------------------------------------------------------
| Id  | Operation                   | Name      | Rows  | Bytes | Cost (%CPU)| Time     |
-----------------------------------------------------------------------------------------
|   0 | SELECT STATEMENT            |           |     7 |   679 |     2   (0)| 00:00:01 |
|   1 |  TABLE ACCESS BY INDEX ROWID| TEST      |     7 |   679 |     2   (0)| 00:00:01 |
|*  2 |   INDEX RANGE SCAN          | IDX_OWNER |     7 |       |     1   (0)| 00:00:01 |
-----------------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   2 - access("OWNER"='SCOTT')


Statistics
----------------------------------------------------------
          1  recursive calls
          0  db block gets
          6  consistent gets
          0  physical reads
          0  redo size
       2174  bytes sent via SQL*Net to client
        523  bytes received via SQL*Net from client
          2  SQL*Net roundtrips to/from client
          0  sorts (memory)
          0  sorts (disk)
          7  rows processed

SQL> select * from test where owner = 'SYS';

30812 rows selected.


Execution Plan
----------------------------------------------------------
Plan hash value: 1357081020

--------------------------------------------------------------------------
| Id  | Operation         | Name | Rows  | Bytes | Cost (%CPU)| Time     |
--------------------------------------------------------------------------
|   0 | SELECT STATEMENT  |      | 30812 |  2918K|   289   (1)| 00:00:04 |
|*  1 |  TABLE ACCESS FULL| TEST | 30812 |  2918K|   289   (1)| 00:00:04 |
--------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   1 - filter("OWNER"='SYS')


Statistics
----------------------------------------------------------
          1  recursive calls
          0  db block gets
       3069  consistent gets
          0  physical reads
          0  redo size
    1536346  bytes sent via SQL*Net to client
      23117  bytes received via SQL*Net from client
       2056  SQL*Net roundtrips to/from client
          0  sorts (memory)
          0  sorts (disk)
      30812  rows processed

SQL> 

 

 

读者只需要知道直方图是用来帮助CBO在对基数很低、数据分布不均衡的列进行Rows估算的时候,可以得到更精确的Rows就够了。

什么样的列需要收集直方图呢?当列出现在where 条件中,列的选择性小于1%并且该列没有收集过直方图。这样的列就应该收集直方图。注意:千万不能对没有出现在where 条件中的列收集直方图。对没有出现在where 条件中的列收集直方图完全是做无用功,浪费数据库资源。

下面我们为大家分享第二个全自动化优化脚本。

抓出必须创建直方图的列(大家可以对该脚本适当修改,以便于用于生产环境)。

 

2,抓出需要收集直方图的列

此脚本依赖统计信息。

当一个表比较大,列选择性低于5%,而且列出现在where 条件中,
为了防止优化器估算Rows出现较大偏差,我们需要对这种列收集直方图。
以下脚本抓出Scott账户下,表总行数大于5万行、列选择性低于5%并且列出现在where 条件中的表以及列信息。

select a.owner,
a.table_name,
a.column_name,
a.num_distinct Cardinality,
round(a.num_distinct / b.num_rows * 100,2) selectivity
from dba_tab_col_statistics a, dba_tables b
where a.owner = b.OWNER
and a.table_name = b.TABLE_NAME
and a.owner = 'SCOTT'
and round(a.num_distinct / b.num_rows * 100,2) < 5
and num_rows > 50000
and (a.table_name,a.column_name) in
(select
o.name,c.name
from sys.col_usage$ u,sys.obj$ o,sys.col$ c,sys.user$ r
where o.obj# = u.obj#
and c.obj# = u.obj#
and c.col# = u.intcol#
and
r.name = 'SCOTT');

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

这篇关于ORACLE 优化 ---直方图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1073372

相关文章

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

Oracle 数据库数据操作如何精通 INSERT, UPDATE, DELETE

《Oracle数据库数据操作如何精通INSERT,UPDATE,DELETE》在Oracle数据库中,对表内数据进行增加、修改和删除操作是通过数据操作语言来完成的,下面给大家介绍Oracle数... 目录思维导图一、插入数据 (INSERT)1.1 插入单行数据,指定所有列的值语法:1.2 插入单行数据,指

Oracle修改端口号之后无法启动的解决方案

《Oracle修改端口号之后无法启动的解决方案》Oracle数据库更改端口后出现监听器无法启动的问题确实较为常见,但并非必然发生,这一问题通常源于​​配置错误或环境冲突​​,而非端口修改本身,以下是系... 目录一、问题根源分析​​​二、保姆级解决方案​​​​步骤1:修正监听器配置文件 (listener.

SpringBoot中HTTP连接池的配置与优化

《SpringBoot中HTTP连接池的配置与优化》这篇文章主要为大家详细介绍了SpringBoot中HTTP连接池的配置与优化的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录一、HTTP连接池的核心价值二、Spring Boot集成方案方案1:Apache HttpCl

PyTorch高级特性与性能优化方式

《PyTorch高级特性与性能优化方式》:本文主要介绍PyTorch高级特性与性能优化方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、自动化机制1.自动微分机制2.动态计算图二、性能优化1.内存管理2.GPU加速3.多GPU训练三、分布式训练1.分布式数据

Oracle 通过 ROWID 批量更新表的方法

《Oracle通过ROWID批量更新表的方法》在Oracle数据库中,使用ROWID进行批量更新是一种高效的更新方法,因为它直接定位到物理行位置,避免了通过索引查找的开销,下面给大家介绍Orac... 目录oracle 通过 ROWID 批量更新表ROWID 基本概念性能优化建议性能UoTrFPH优化建议注

PostgreSQL 序列(Sequence) 与 Oracle 序列对比差异分析

《PostgreSQL序列(Sequence)与Oracle序列对比差异分析》PostgreSQL和Oracle都提供了序列(Sequence)功能,但在实现细节和使用方式上存在一些重要差异,... 目录PostgreSQL 序列(Sequence) 与 oracle 序列对比一 基本语法对比1.1 创建序

MySQL中like模糊查询的优化方案

《MySQL中like模糊查询的优化方案》在MySQL中,like模糊查询是一种常用的查询方式,但在某些情况下可能会导致性能问题,本文将介绍八种优化MySQL中like模糊查询的方法,需要的朋友可以参... 目录1. 避免以通配符开头的查询2. 使用全文索引(Full-text Index)3. 使用前缀索

C#实现高性能Excel百万数据导出优化实战指南

《C#实现高性能Excel百万数据导出优化实战指南》在日常工作中,Excel数据导出是一个常见的需求,然而,当数据量较大时,性能和内存问题往往会成为限制导出效率的瓶颈,下面我们看看C#如何结合EPPl... 目录一、技术方案核心对比二、各方案选型建议三、性能对比数据四、核心代码实现1. MiniExcel

MySQL索引的优化之LIKE模糊查询功能实现

《MySQL索引的优化之LIKE模糊查询功能实现》:本文主要介绍MySQL索引的优化之LIKE模糊查询功能实现,本文通过示例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一、前缀匹配优化二、后缀匹配优化三、中间匹配优化四、覆盖索引优化五、减少查询范围六、避免通配符开头七、使用外部搜索引擎八、分