上一篇已经介绍了nagios如何实现对主机及服务的监控,尽可能实现对系统运行状态的全面监控只是初级目标,nagios还可以借助smtp服务发送通知信息给指定的联系人。
本文所用到系统环境 OS:CentOS release 6.8 (Final) 2.6.32-642.el6.x86_64 还有一个重要环境:互联网(yum、百度、Google)。 各软件包:
nagios发送通知邮件的配置过程如下:
-
修改templates.cfg 要让nagios能够发送邮件,首先要定义什么情况下可以触发nagios来发送邮件通知,邮件的接收对象,以及通知邮件发送的时间段及频率等,这些参数都需要事先在templates.cfg文件中定义好。示例如下:
-
修改services.cfg 首先要注意的是笔者的services.cfg文件中对有些服务的监控是没有使用check_nrpe指令的,如ping测试,ssh,http服务都是直接使用的相应的plugin来监测的。所以如果要修改这些服务的监控告警阈值需要修改这个services.cfg文件,而对于其它调用了check_nrep指令的服务则同样需要修改/usr/local/nagios/etc/nrpe.cfg,并且确保两者中的指令名称一样。services.cfg示例如下:
-
对于使用check_nrpe指令来启动的监控对象则需要修改/usr/local/nagios/etc/nrpe.cfg中的命令参数,来配置相应的warinning和critical阈值。示例如下:
实际工作中,根据业务需求进行配置,上述数值只作为示例。
-
修改commands.cfg 在上面的配置模板templates.cfg中可以看到分别针对主机和服务的通知发送引用了两个命令:notify-host-by-email和notify-service-by-email,这两个命令具体是什么样的,它是在commands.cfg文件中定义的。示例如下:
-
修改contracts.cfg 修改contracts.cfg文件的目的是为了定义当nagios需要发送通知时nagios知道要将通知发给谁。 示例如下:
检查nagios server的smtp服务是否正常 Linux主机上可以通过sendmail或者postfix来启动smtp服务,使用ss -tnl来检查25端口是否开启即可。如果则检查是否安装了sendmail或者postfix软件包,二者有其一即可,如果安装了,手动将服务启动即可service sendmail start或者service postfix start。
-
配置nagios server本机发件账户 因为这台nagios服务器没有邮件域名注册在公网上,nagios系统默认情况下会使用名为nagios@nagios-server-name的邮件地址给contracts.cfg中定义的邮件地址发送通知邮件,这个地址不是合法的,所以要么邮件发送不出去,要么发送出去了,会被收件者邮件服务器放到垃圾箱中,如果没有公司邮件可以使用,那么可以配置如网易这类公共邮箱来进行邮件的发送。
需要注意 1. 登录网页邮箱设置中确认已开启smtp服务。 2. 为邮箱启用授权码,在设置中可以找到,163邮箱的授权码是自己设定的的,并记好在第三方的邮件客户端软件中配置163邮箱时要用到。 3. QQ邮箱同样可以设置授权码,但它是随机变化的,每次设置时都不一样,且它的smtp连接需要使用ssl,在linux中笔者没搞定,所以建议不要将QQ邮箱作为nagios通知邮件的发送方。
给本机配置发件时使用的邮箱服务是通过修改mail.rc文件完成的,在其最后加上如下内容:
修改完成以后,重启一下smtp服务,sendmail或者postfix。
-
使用mail发送测试邮件 使用mail指令来发送测试邮件,以验证nagios server是否已可以使用刚才配置的163邮箱往指定的邮箱发送邮件了。mail指令由mailx软件包提供,其路径要和commands.cfg里定义的路径一致,即/bin/mail。测试方式:
-
测试nagios发送通知邮件 在确保nagios服务器可以通过配置的163邮箱往外成功发送邮件以后,接着测试nagios发送通知邮件的功能是否正常。 制造告警 测试环境中,笔者人为将一台名为server1上的http服务down掉nginx -s stop,然后观察naginx web页面监控,及查看是否能够收到通知邮件。 观察到的nagios web页面监控信息如下:
nagios监控到http不可用触发critical告警
时间上可以看到是:2017-04-09 16:15:51,尝试了1/4即检测到了一次失败,此时还不会发送通知邮件,只有连续检测到了4次失败才会发送通知邮件。 接着当检测到了4次以后情况如下:
连续检测到4次critical
此时nagios日志会记录这一情况,从日志可以清楚的看到,4次 检测间隔时间为1分钟(以下为/var/log/messages中的情况,nagios会同时将日志记录到syslog和它自己的日志中,默认如此,可以改变设置):
从上面最后一条日志可以看到nagios触发了发送通知的操作。 与此同时,笔者的QQ邮箱也收到了这一通知邮件,时间相差只有3秒,反应非常迅速。笔者开启了微信上的QQ邮箱通知功能,虽然不具备让nagios直接调用微信平台公众号推送通知的能力,但这个方式感觉也很方便。 下图是邮件的相关信息,其中包括邮件主题,正文内容及格式,都是可以在commands.cfg的mail部分配置的。示例如下:
nagios通知邮件微信推送
当处理完server1 http这一critical后,nagios会在第一次检测成功后即发送服务恢复的邮件。这些邮件发送的时机,检测的次数这些都是在templates.cfg中定义好的。之所以连续检测4次失败才会发送通知邮件是由max_check_attempts决定的,默认配置为3,表示第一次检测失败后,最多再尝试3次,如果还是检测失败,则即刻发送通知消息。失败之后每次间隔一分钟检测一次,是由retry_interval参数定义的。
经过实际测试现对nagios故障反应时间做如下总结:
针对nagios server对故障反应的时长问题,应该可以通过用于主动监控的NSCA组件可以缩短,NSCA组件是用于实现更大规模的分布式监控体系的,它可以让被监控端主动发送监控信息给nagios server。这一部分还有待后续学习实践。
另外在nagios wed页面中也可以很方便地对各个服务的邮件通知进行Disable或者Enable操作,特殊情况下可以临时关闭对某主机或某些服务的通知操作,便于维护工作的展开。
好的内容离不开作者的持续付出,给他一次小小的打赏我们将获得持续不断的有料干货,美女和帅哥都会至少打赏1元哟 |