首页 存档 技术 查看内容

数据库故障处理报告

2018-3-30 13:00 |来自: 互联网 415 0

摘要: 作者介绍: 裴征峰,现就职于北京海天起点,专家组成员,南京办事处负责人,持有OCP 10g、OCP 11g、OCM 11g证书,主要从事客户的现场维护,重大问题的解决,数据库性能分析,服务质量保证等工作。拥有超过八年的Orac ...




作者介绍:

裴征峰,现就职于北京海天起点,专家组成员,南京办事处负责人,持有OCP 10g、OCP 11g、OCM 11g证书,主要从事客户的现场维护,重大问题的解决,数据库性能分析,服务质量保证等工作。拥有超过八年的Oracle服务经验,具备丰富的行业服务背景,对Oracle数据库有深刻的理解,在Oracle数据库RAC以及高可用解决方案方面具有深厚的实践经验,擅长数据库故障诊断,数据库性能调优。


概述


某用户发现在Exadata上平时正常运行的脚本发生了故障,通知海天起点工程师,海天起点工程师在登录到服务器环境进行检查后,发现数据库优化器版本参数设置有问题,进行修改后,于早上8点解决故障。


故障现象


执行脚本时的报错信息:


ERROR at line 1:

ORA-12801: error signaled in parallel query server P005, instance

ht01db03.hthorizon.com:dbm3 (3)

ORA-00600: internal error code, arguments: [15817], [], [], [], [], [], [], [],[], [], [], []


故障原因分析


  • 报错信息发生在dbm3,由于昨天晚上升级了数据库版本,并且添加了在ht01db03、ht01db04上新增加了两个实例,把实例数扩充到4个,但是由于资源分配较少,在停掉ht01db03和ht01db04的实例后,故障依旧。


  • 当前SQL是并行执行,Oracle RAC在默认情况下会跨节点分配并行会话,也就是说,在1号节点发起脚本,由于是并行执行,Oracle会把一些并行工作放到2,3,4号节点上去执行。在设置parallel_force_local=true后,故障依旧。


  • 仔细观察了报错的trc文件,里面的内容主要是一个执行计划:


Trace file /u01/app/oracle/diag/rdbms/dbm/dbm1/trace/dbm1_p090_12767.trc

Oracle Database 11g Enterprise Edition Release 11.2.0.3.0 - 64bit Production

With the Partitioning, Real Application Clusters, Automatic Storage Management, OLAP,

Data Mining and Real Application Testing options

ORACLE_HOME = /u01/app/oracle/product/11.2.0.3/dbhome_1

System name:Linux

Node name:dw01db01.hthorizon.com

Release:2.6.32-400.21.1.el5uek

Version:#1 SMP Wed Feb 20 01:35:01 PST 2013

Machine:x86_64

Instance name: dbm1

Redo thread mounted by this instance: 1

Oracle process number: 194

Unix process pid: 12767, image: [email protected] (P090)

*** 2013-10-27 07:26:32.365

*** SESSION ID:(271.449) 2013-10-27 07:26:32.365

*** CLIENT ID:() 2013-10-27 07:26:32.365

*** SERVICE NAME:(dbm) 2013-10-27 07:26:32.365

*** MODULE NAME:(SQL*Plus) 2013-10-27 07:26:32.365

*** ACTION NAME:() 2013-10-27 07:26:32.365

DDE: Problem Key 'ORA 600 [15817]' was flood controlled (0x6) (incident: 2004888)

ORA-00600: internal error code, arguments: [15817], [], [], [], [], [], [], [], [], [], [], []

qerpxSlaveFetch

rwsrid:1 pxid:1 qbas:0:err:600

----- Explain Plan Dump -----

----- Compact Format (Stream) -----

……

============

Plan Table

============

---------------------------------------------------------------------------------- ----------------------------------- ------------------------- ---------------

| Id | Operation | Name | Rows | Bytes | Cost | Time | TQ |IN-OUT|PQ Distrib | Pstart| Pstop |

---------------------------------------------------------------------------------- ----------------------------------- ------------------------- ---------------

| 0 | INSERT STATEMENT | | | | 2873 | | | | | | |

| 1 | PX COORDINATOR | | | | | | | | | | |

| 2 | PX SEND QC (RANDOM) | :TQ10007 | 89 | 162K | 2873 | 00:00:52 |:Q1007| P-

声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系 [邮箱地址] 删除

路过

雷人

握手

鲜花

鸡蛋

相关分类

返回顶部