Nagios 简介及其二次开发-白红宇

Nagios简介

Nagios是十分受欢迎的、开源且免费的计算机及网络系统监控软件。Nagios是“Nagios Ain‘t Gonna Insist On Sainthood”的缩写。它最早是在1999年以“NetSaint”发布。Nagios主要应用在Linux和Unix平台环境下的监控，但通过插件，也可以监控MS Windows系统的主机。Nagios在LinuxCon 2010 Poll并选为最受欢迎的IT运维工具。它被Infoworld在2009年评为最佳开源软件，同时也是该年度的SourceForge社区的系统管理工具最佳选择。Nagios也被很多知名企业所采用，包括AOL，DHL，At&t，欧莱雅，德州仪器，Siemens COM CZ，时代华纳有线，Yahoo等。

Nagios的特征包括：

l 监控网络服务（SMTP、POP3、HTTP、NNTP、PING等）；

l 监控主机资源（处理器负荷、磁盘利用率等）；

l 并行服务检查机制；

l 具备定义网络分层结构的能力，用”parent”主机定义来表达网络主机间的关系，这种关系可被用来发现和明晰主机宕机或不可达状态，提供设备组网拓扑展示能力；

l 当服务或主机问题产生与解决时将告警发送给联系人（通过EMail、短信、用户定义方式）；

l 具备定义事件句柄功能，它可以在主机或服务的事件发生时获取更多问题定位；

l 简单地插件设计使得用户可以方便地扩展自己服务的检测方法；

l 自动的日志轮转；

l 可以支持并实现对主机的冗余监控；

l 可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等；

二次开发

Nagios的功能是监控服务和主机，但是他自身并不包括这部分功能，所有的监控、检测功能都是通过各种插件来完成的。启动 Nagios后，它会周期性的自动调用插件去检测服务器状态，同时 Nagios 会维持一个队列，所有插件返回来的状态信息都进入队列，Nagios每次都从队首开始读取信息，并进行处理后，把状态结果通过 web 显示出来。

Nagios Plug-in机制

Nagios Daemon通过加载一些官方的或其它自开发的插件(Plug-in)，能够实现对诸如服务器、网络、应用甚至房间温度和湿度等的监控。Nagios Core作为Nagios Daemon的核心，负责对这些插件的结果进行处理（诸如统计、转储、人工或自动响应处理等）。因此Nagios Core即为Nagios的事件池的核心。在Nagios Core内部，它为每一种加载的插件都会分配独立的工作缓冲区（即以objecttype作为区分），以存放相应插件所产生的事件信息。每一个独立运行的Nagios Daemon可以有自己的名称以便集群Nagios环境下的相互区别，即从更大的层面来区分这些工作缓冲区。

Nagios插件通常是通过命令行方式监控主机或服务工作状态的脚本，由Nagios进行按需调用，并把执行结果返回给Nagios。Nagios正是根据这些返回值来判断是否“采取某种行动”（如运行事件句柄（event handlers），发送通知等）。下图展示了插件相对于Nagios进程和被监控对象间的关系：

为了管理插件，Nagios 每次在查询一个服务的状态时，产生一个子进程，并且它使用来自该命令的输出和退出代码来确定具体的状态。

下面提供了一个 Python 示例脚本，用于检查 UNIX® 平均负载。它假定 2.0 以上的级别表示警告状态，而 5.0 以上的级别表示危险状态。这些值都采用了硬编码的方式，并且始终使用最近一分钟的平均负载。

Nagios Add-on机制

Nagios支持以Add-on方式扩展监控信息处理能力。Nagios采集到的监控信息都被看做事件，事件接收者对感兴趣的事件注册，事件发生时Nagios的事件机制会将事件发送到事件接收者。Nagios的Add-on就是事件接收者。Add-on通过将自身注册到感兴趣的事件上，可以实时的从Nagios接收到事件，并作出相应处理。

Nagios Add-on工作原理图：

Nagios监控效果：