首页 ›存档› 技术 › 查看内容

数据库运维工具化：一切从“简”，只为DBA更轻松

2018-3-30 13:00 |来自: 互联网 329 0

摘要: 众所周知，数据库的运维既是个技术活儿也是个苦差事，不仅要有广阔的知识面，强大的技术能力，对主机、存储、网络、操作系统也最好样样精通，而且还要会写SQL、shell、最好连Java也能拿下…同时，还需要拥有超强的耐 ...

众所周知，数据库的运维既是个技术活儿也是个苦差事，不仅要有广阔的知识面，强大的技术能力，对主机、存储、网络、操作系统也最好样样精通，而且还要会写SQL、shell、最好连Java也能拿下…同时，还需要拥有超强的耐心、谨慎的态度以及强健的体魄。

今天【DBA 社群】联合发起人邹德裕老师将告诉你如何让数据库运维简单化，如何减轻DBA的工作量及压力，提升效率，并且可以拥有更多时间去思考。

如何简单化
OraZ之路
OraZ后续计划开发或扩展功能

一如何简单化

1、第一个运维工具：ora

2008年刚进公司转做专职DBA，发现DBA竟然比以前干程序员还苦逼，通宵施工如家常便饭，而且有大量的重复工作。当时每个dba在共享服务器上都有自己的脚本集，每当应用侧有任何异动DBA们就找到自己的脚本集文件，然后替换条件复制粘贴执行，遇到没找到的就一顿狂敲键盘输SQL。特别是在遇到大故障时，身后便会围着一群人，有各方领导，还有开发商，里外好几层。那可真是令人抓狂，因为做过几年的开发，我便想，为何不做一个shell程序，统一入口，只要传入参数即可。于是我开发了第一个简单的Oracle运维工具，当时脚本集就叫ora。这个工具后来在运维团队不断被完善、扩散，至今仍在使用。

Ora脚本集的优点：

让日常监控、维护操作等标准化。
减少出错机会，提高效率。
让DBA从容应对故障应急。

缺点也是明显的，正是有了这个工具，现在很多DBA们到了非驻场的服务现场就不会写SQL了。（怪我喽…）

2、智能HANG分析

在运维期间碰到系统常发生HANG，当数据库发生在争夺内核级别的资源时，比如Latch等，在11G之前oracle不能自动的检测并处理这种死锁。这时候需用Hanganalyze工具dump资源持有的相互关系。当二线DBA到场时已基本Hang死，或无法登陆，即使能做出dump trace也无法反映真实原因。

另外分析trace定位堵塞源也要一定时间。所以分析出结果时往往应用已中断。既然hang住后要重启或终止掉所有前台发起数据库进程才能解决，何不在hang开始初期就发起自动hang分析，识别引起hang的源头，记录相关信息，终止源头。

具体过程如下：

1．通过等待事件识别Hang症状
2．根据上一步骤判断触发搜集hanganalyze
3. 分析hang的dump信息，并确认是否存在hang
4. 识别hang的源头记录相关信息并解决hang问题

这是我编写的第二个程序（由于该程序已申请了专利，代码在此就不分享了）。

注：在Oracle 11g 11.2.0.2版本发布后，其新特性中才出现了hang 管理器(Hang Manager)

HM配置参数（开启后会根据配置终止实例或进程，请谨慎使用）：