Oracle 分页查询与数据去重深入理解

244次阅读

没有评论

共计 4211 个字符，预计需要花费 11 分钟才能阅读完成。

一、效率高的写法

**
1. 无 ORDER BY 排序的写法。(效率最高)
(经过测试，此方法成本最低，只嵌套一层，速度最快！即使查询的数据量再大，也几乎不受影响，速度依然！)
SELECT *

FROM (SELECT ROWNUM AS rowno, t.*

FROM emp t

WHERE hire_date BETWEEN TO_DATE (‘20060501’, ‘yyyymmdd’)

AND TO_DATE (‘20060731’, ‘yyyymmdd’)

AND ROWNUM <= 20) table_alias

WHERE table_alias.rowno >= 10;

2. 有 ORDER BY 排序的写法。(效率较高)
(经过测试，此方法随着查询范围的扩大，速度也会越来越慢哦！)
SELECT *

FROM (SELECT tt.*, ROWNUM AS rowno

FROM (SELECT t.*

FROM emp t

WHERE hire_date BETWEEN TO_DATE (‘20060501’, ‘yyyymmdd’)

AND TO_DATE (‘20060731’, ‘yyyymmdd’)

ORDER BY create_time DESC, emp_no) tt

WHERE ROWNUM <= 20) table_alias

WHERE table_alias.rowno >= 10;

**

二、效率垃圾但又似乎很常用的分页写法

**

3. 无 ORDER BY 排序的写法。(建议使用方法 1 代替)
(此方法随着查询数据量的扩张，速度会越来越慢哦！)
SELECT *

FROM (SELECT ROWNUM AS rowno, t.*

FROM k_task t

WHERE flight_date BETWEEN TO_DATE (‘20060501’, ‘yyyymmdd’)

AND TO_DATE (‘20060731’, ‘yyyymmdd’)) table_alias

WHERE table_alias.rowno <= 20 AND table_alias.rowno >= 10;

–TABLE_ALIAS.ROWNO between 10 and 100;

4. 有 ORDER BY 排序的写法.(建议使用方法 2 代替)
(此方法随着查询范围的扩大，速度会越来越慢哦！)
SELECT *

FROM (SELECT tt.*, ROWNUM AS rowno

FROM (SELECT *

FROM k_task t

WHERE flight_date BETWEEN TO_DATE (‘20060501’, ‘yyyymmdd’)

AND TO_DATE (‘20060531’, ‘yyyymmdd’)

ORDER BY fact_up_time, flight_no) tt) table_alias

WHERE table_alias.rowno BETWEEN 10 AND 20;

5. 另类语法。(有 ORDER BY 写法）
(语法风格与传统的 SQL 语法不同，不方便阅读与理解，为规范与统一标准，不推荐使用。)
WITH partdata AS

(

SELECT ROWNUM AS rowno, tt.*

FROM (SELECT *

FROM k_task t

WHERE flight_date BETWEEN TO_DATE (‘20060501’, ‘yyyymmdd’)

AND TO_DATE (‘20060531’, ‘yyyymmdd’)

ORDER BY fact_up_time, flight_no) tt

WHERE ROWNUM <= 20)

SELECT *

FROM partdata

WHERE rowno >= 10;

–6 另类语法。(无 ORDER BY 写法）

WITH partdata AS

(

SELECT ROWNUM AS rowno, t.*

FROM k_task t

WHERE flight_date BETWEEN TO_DATE (‘20060501’, ‘yyyymmdd’)

AND TO_DATE (‘20060531’, ‘yyyymmdd’)

AND ROWNUM <= 20)

SELECT *

FROM partdata

WHERE rowno >= 10;

**

三、分析

**
Oracle 的分页查询语句基本上可以按照本文给出的格式来进行套用。

分页查询格式：
SELECT *

FROM (SELECT a.*, ROWNUM rn

FROM (SELECT *

FROM table_name) a

WHERE ROWNUM <= 40)

WHERE rn >= 21

其中最内层的查询 SELECT * FROM TABLE_NAME 表示不进行翻页的原始查询语句。ROWNUM <= 40 和 RN >= 21 控制分页查询的每页的范围。

上面给出的这个分页查询语句，在大多数情况拥有较高的效率。分页的目的就是控制输出结果集大小，将结果尽快的返回。在上面的分页查询语句中，这种考虑主要体现在 WHERE ROWNUM <= 40 这句上。

选择第 21 到 40 条记录存在两种方法，一种是上面例子中展示的在查询的第二层通过 ROWNUM <= 40 来控制最大值，在查询的最外层控制最小值。而另一种方式是去掉查询第二层的 WHERE ROWNUM <= 40 语句，在查询的最外层控制分页的最小值和最大值。这是，查询语句如下：
SELECT *

FROM (SELECT a.*, ROWNUM rn

FROM (SELECT *

FROM table_name) a)

WHERE rn BETWEEN 21 AND 40

对比这两种写法，绝大多数的情况下，第一个查询的效率比第二个高得多。

这是由于 CBO 优化模式下，Oracle 可以将外层的查询条件推到内层查询中，以提高内层查询的执行效率。对于第一个查询语句，第二层的查询条件 WHERE ROWNUM <= 40 就可以被 Oracle 推入到内层查询中，这样 Oracle 查询的结果一旦超过了 ROWNUM 限制条件，就终止查询将结果返回了。

而第二个查询语句，由于查询条件 BETWEEN 21 AND 40 是存在于查询的第三层，而 Oracle 无法将第三层的查询条件推到最内层（即使推到最内层也没有意义，因为最内层查询不知道 RN 代表什么）。因此，对于第二个查询语句，Oracle 最内层返回给中间层的是所有满足条件的数据，而中间层返回给最外层的也是所有数据。数据的过滤在最外层完成，显然这个效率要比第一个查询低得多。

上面分析的查询不仅仅是针对单表的简单查询，对于最内层查询是复杂的多表联合查询或最内层查询包含排序的情况一样有效。

这里就不对包含排序的查询进行说明了，下一篇文章会通过例子来详细说明。

下面简单讨论一下多表联合的情况。

对于最常见的等值表连接查询，CBO 一般可能会采用两种连接方式 NESTED LOOP 和 HASH JOIN（MERGE JOIN 效率比 HASH JOIN 效率低，一般 CBO 不会考虑）。在这里，由于使用了分页，因此指定了一个返回的最大记录数，NESTED LOOP 在返回记录数超过最大值时可以马上停止并将结果返回给中间层，而 HASH JOIN 必须处理完所有结果集（MERGE JOIN 也是）。那么在大部分的情况下，对于分页查询选择 NESTED LOOP 作为查询的连接方法具有较高的效率（分页查询的时候绝大部分的情况是查询前几页的数据，越靠后面的页数访问几率越小）。

因此，如果不介意在系统中使用 HINT 的话，可以将分页的查询语句改写为：
SELECT *

FROM (SELECT a.*, ROWNUM rn

FROM (SELECT *

FROM table_name) a

WHERE ROWNUM <= 40)

WHERE rn >= 21

一、完全重复数据去重方法

具体思路是，首先创建一个临时表，然后将 DISTINCT 之后的表数据插入到这个临时表中; 然后清空原表数据; 再讲临时表中的数据插入到原表中; 最后删除临时表。

对于表中完全重复数据去重，可以采用以下 SQL 语句。

–Code

CREATE TABLE “#temp” AS (SELECTDISTINCT * FROM 表名); – 创建临时表，并把 DISTINCT 去重后的数据插入到临时表中

truncate TABLE 表名; – 清空原表数据

INSERT INTO 表名 (SELECT * FROM “#temp”); – 将临时表数据插入到原表中

DROP TABLE “#temp”; – 删除临时表

二、部分数据去重方法

我们可以考虑建立临时表，将需要判断重复的字段、rowid 插入临时表中，然后删除的时候在进行比较。

createtable 临时表 as

select a. 字段 1,a. 字段 2,MAX(a.ROWID) dataid from 正式表 a GROUPBY a. 字段 1,a. 字段 2;

deletefrom 表名 a

where a.rowid !=

(

select b.dataid from 临时表 b

where a. 字段 1 = b. 字段 1 and

a. 字段 2 = b. 字段 2

);

commit;