Welcome 微信登录

首页 / 数据库 / MySQL / ORA-01555问题分析及解决

今天开发的同事发给我一个问题,在运行某一个Job的时候抛出了ORA-01555错误,希望我们看看从数据库层面能不能发现什么。错误日志如下:Function: EntitySQLCursor::queryLine number: 113Time: Thu Jul  2 22:52:46 2015Message text: (PE1-000143) Internal IO Framework Database Error, message ORA-01555: snapshot too old: rollback segment number 22 with name "_SYSSMU22_234950861$" too small, code 1555.看这个错误,似乎是Oracle分配的回滚段太小导致的。对于这个问题,因为已经过去了一段时间,所以能够合理分析的一种途径就是使用ash.根据错误信息中的时间戳,基本定位在了22:52~22:53这一分钟之内,抓取了一个ash报告。因为信息针对性更强,可以很清晰的看到在那一分钟之内数据库层面有一些查询和dml的语句在运行,有些走了全表扫描,有些走了索引扫描。Top SQL with Top Events
SQL IDPlanhashSampled # of Executions% ActivityEvent% EventTop Row Source% RwSrcSQL Text
fzn01wc5pg2dg1199754052215.67CPU + Wait for CPU11.75TABLE ACCESS - FULL11.75SELECT /*+ ALL_ROWS USE_NL ("A...
    db file sequential read2.61TABLE ACCESS - FULL2.61 
    direct path read1.31TABLE ACCESS - FULL1.31 
5q2mguqdcrq4a421773076112.01db file sequential read12.01INDEX - RANGE SCAN7.05SELECT RE.L3_NET_START_TIME, R...
a793wrq0q27c5201265388110.70db file sequential read8.09DELETE8.09delete from RATED_EVENT WHERE ...
    CPU + Wait for CPU1.57DELETE1.57 
    direct path read temp1.04DELETE1.04 
496x3fkydc1xj8430599019.92db file sequential read8.62INDEX - RANGE SCAN8.62** SQL Text Not Available **
    CPU + Wait for CPU1.31INDEX - RANGE SCAN1.31 
dm1d93bw2jdzc2843169790278.09db file sequential read4.70INDEX - RANGE SCAN2.09select sk.rowid , sk.subscribe...
    CPU + Wait for CPU3.39SELECT STATEMENT2.35
需要重点关注的是全表扫描的语句和DML语句。先来看看全表扫描的语句。SELECT /*+ ALL_ROWS USE_NL ("AC1_CONTROL_HIST") FULL ("AC1_CONTROL_HIST") */ ....  from  "AC1_CONTROL_HIST" WHERE "CUR_PGM_NAME"="RGD" AND "IDENTIFIER"=:1语句输出字段较多,但是相关的表只有一个,这个表从表名可以看出是一个历史表,数据量相比也是相当大的,一查看统计信息,数据量都在亿级以上。这么大的表,使用了hint,指定全表扫描,相比是某些地方需要吧,带着疑问查看了索引的信息,而其中的主键索引就是IDENTIFIER字段开始的。所以从这个角度来看,这个问题是一个很明显的问题,因为使用Hint不当导致了,本该走索引扫描的查询结果走了极为消耗资源的全表扫描。当然了,哲学中有句话是 存在即合理,可能在早期的时候数据量不大,处于某种需要,可能需要全表扫描,或者这部分逻辑是直接从某个地方参考而来,而其中的hint都忘了变更,导致了这样的问题。出了问题,找问题的理由也是多种多样。当然最终这个问题还是发生了,能够及时发现修复才是更重要的。对于这个问题的分析暂时告一段落,但是还有dml对于undo的影响也不容小视,可供参考的就是前面表格中的delete语句了。对于这个语句,delete涉及的表也是很大的一个分区表,数据量亿级以上。在基于索引扫描的前提下,做了根据时间戳进行数据清理的操作。对于这种操作,我们可以反过来考虑一下,目前delete的逻辑是对的,在排除了ac1_control_hist全表扫描影响的前提下,delete操作还是会消耗大量的undo资源。这个时候也需要同时考虑目前的undo大小是否完全满足系统的要求。目前的库里undo的大小在17G左右,几个大分区表都在百G以上,如果删除所限定的时间戳大一些,undo的消耗就会更大,所以也需要考量undo的大小,根据目前的情况,可以考虑适当增大undo空间。所以这个问题的分析结果就是两个建议,第一个就是对于本该索引扫描的语句走了全表扫描进行改进,规范hint的使用。另外一方面是建议适当调大undo的大小,以满足系统的需求,使得系统的负载更有张力。   tablespace online问题解决ORA-00600问题排查与分析实例相关资讯      ORA-01555 
  • 闪回归档(11G新功能)远离ORA-  (05/07/2015 19:40:51)
  • Oracle ORA-01555(快照过旧)  (10/08/2014 13:19:32)
  • ORA-01555超长的Query Duration时  (12/12/2013 09:11:20)
  • undo transaction slot被覆盖引起  (01/17/2015 15:01:04)
  • Oracle数据库 ORA-01555 快照过旧  (12/14/2013 19:48:14)
  • ORA-01555错误详解  (06/18/2013 08:01:49)
本文评论 查看全部评论 (0)
表情: 姓名: 字数