阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

ORA-00600: 内部错误代码, 参数: [kdsgrp1] 解决案例

208次阅读
没有评论

共计 2793 个字符,预计需要花费 7 分钟才能阅读完成。

 一日,客户的数据库中表空间 SYSAUX 的 AWR 相关表出现了一个坏块。通过 truncate 表(数据不重要),从备份中 restore 数据文件,做完恢复之后坏块修复。

数据库 OPEN 之后,客户业务出现错误。检查告警日志,出现了:
   

Errors in file /u01/app/Oracle/diag/rdbms/test/test/trace/test_ora_51465.trc  (incident=279339):

ORA-00600: 内部错误代码, 参数: [kdsgrp1], [], [], [], [], [], [], [], [], [], [], []

Incident details in: /u01/app/oracle/diag/rdbms/test/test/incident/incdir_279339/test_ora_51465_i279339.trc

从 trace 中看出,某个 SQL 引发了这个错误。这个错误主要指对应索引 ROWID, 在数据表中找不到记录, 这表明出现了数据一致性问题。从 trace 文件中获得了引发错误的 SQL,执行之,如下:

ORA-00600: 内部错误代码, 参数: [kdsgrp1] 解决案例

继续看 trace 文件, 可以定位到如下记录

*** 2019-03-30 22:00:06.323 

 *** SESSION ID:(1802.759) 2019-03-30 22:00:06.323 

 *** CLIENT ID:() 2019-03-30 22:00:06.323 

 *** SERVICE NAME:(ysnc) 2019-03-30 22:00:06.323 

 *** MODULE NAME:(sqlservr.exe) 2019-03-30 22:00:06.323 

 *** ACTION NAME:() 2019-03-30 22:00:06.323 

   

 * kdsgrp1-1: ************************************************* 

            row 0x030b33a7.0 continuation at 

            0x030b33a7.0  file# 12 block# 734119  slot 0 not found 

 KDSTABN_GET: 0 ….. ntab: 0 

 curSlot: 0 ….. nrows: 0 

 kdsgrp – dump CR block dba=0x030b33a7 

 Block header dump:  0x030b33a7 

  Object id on Block? Y 

  seg/obj: 0x29761  csc: 0x00.53475f8c  itc: 2  flg: E  typ: 1 – DATA 

      brn: 0  bdba: 0x30b3300 ver: 0x01 opc: 0 

      inc: 0  exflg: 0 

从中,得到了数据文件号 12,以及数据块编号,734119,可以使用 SQL 定位出错的对象 

 select owner,segment_name,segment_type from dba_extents where file_id=  12 and block_id<=  734119  and (block_id+blocks)>=  734119  ; 

查询到了对象之后,开始尝试重建对象的索引。

ORA-00600: 内部错误代码, 参数: [kdsgrp1] 解决案例

重建时,出现了错误 ORA-00600 13004。

只得通过 drop 索引,然后再 create 的办法建立。

 索引重建完成后,此 SQL 再次执行,没有发生错误。

另外,此客户的数据库后来又发生了 ORA-08103 Object no longer exists

查询表时,已经发生错误,这里就不可避免发生了数据丢失。

从 MOS 上查到了如下脚本抢救数据:

REM Create a new table based on the table that is producing errors with no rows: 

 create table < 用户 >.(表名 >_20180331 

 as 

 select * 

 from  < 用户 >.(表名 > 

where  1=2; 

 REM Create the table to keep track of ROWIDs pointing to affected rows: 

 create table < 用户 >.bad_rows (row_id rowid, oracle_error_code number); 

 set serveroutput on 

 DECLARE 

  TYPE RowIDTab IS TABLE OF ROWID INDEX BY BINARY_INTEGER; 

  CURSOR c1 IS select /*+ index_ffs(tab1 < 索引名称 >) parallel(tab1) */ rowid 

  from < 用户 >.(表名 > tab1 

  where pk_flow is NOT NULL 

  order by rowid; 

  r RowIDTab; 

  rows NATURAL := 20000; 

  bad_rows number := 0 ; 

  errors number; 

  error_code number; 

  myrowid rowid; 

 BEGIN 

  OPEN c1; 

  LOOP 

    FETCH c1 BULK COLLECT INTO r LIMIT rows; 

    EXIT WHEN r.count=0; 

    BEGIN 

    FORALL i IN r.FIRST..r.LAST SAVE EXCEPTIONS 

      insert into < 用户 >.(表名 >_20180331 

      select /*+ ROWID(A) */ a.* 

      from < 用户 >.(表名 > A where rowid = r(i); 

    EXCEPTION 

    when OTHERS then 

    BEGIN 

      errors := SQL%BULK_EXCEPTIONS.COUNT; 

      FOR err1 IN 1..errors LOOP 

      error_code := SQL%BULK_EXCEPTIONS(err1).ERROR_CODE; 

      if error_code in (1410, 8103, 1578) then 

        myrowid := r(SQL%BULK_EXCEPTIONS(err1).ERROR_INDEX); 

        bad_rows := bad_rows + 1; 

        insert into < 用户 >.bad_rows values(myrowid, error_code); 

      else 

        raise; 

      end if; 

      END LOOP; 

    END; 

    END; 

    commit; 

  END LOOP; 

  commit; 

  CLOSE c1; 

  dbms_output.put_line(‘Total Bad Rows: ‘||bad_rows); 

 END; 

万幸的是,40 多万条数据最终只丢失了 6 条,收到影响的单据有两个。业务通过补单据的方式挽回了数据。

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-22发表,共计2793字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中