Nagios 系统监控基本安装配置过程详解

共计 7042 个字符，预计需要花费 18 分钟才能阅读完成。

Nagios 是一款免费的开源 IT 基础设施监控系统，功能强大，灵活性强，能有效监控 Windows、Linux、VMware 和 Unix 主机状态，交换机、路由器等网络设置等。一旦主机或服务状态出现异常时，会发出邮件或短信报警第一时间通知 IT 运营人员，在恢复后发出正常的邮件或短信。Nagios 结构简单，可维护性强，提供一个可选的基于浏览器的 Web 界面，方便管理人员查看系统的运行状态，网络状态、服务状态、日志信息，以及其它异常现象。

一、Nagios 结构简单说明

Nagios 结构上来说，可分为核心和插件两个部分。Nagios 的核心部分只提供了很少的监控功能，因此要搭建一个完善的 IT 监控管理系统，用户还需要在 Nagios 服务器安装相应的插件，插件可以从 Nagios 官方网站下载 http://www.nagios.org/，也可以根据实际要求自己编写所需的插件。

二、Nagios 可实现的功能特性

监控网络服务(SMTP、POP3、HTTP、FTP、PING 等)
监控本机及远程主机资源(CPU 负荷、磁盘使用率、进程等)
允许用户编写自己的插件来监控特定的服务，支持多种开发语言(Shell、Perl、Python、PHP、C 等)
具备定义网络分层结构的能力
当服务或主机问题产生与解决时将告警发送给联系人(通过 Email、短信、自定义方式)
可以支持并实现对主机的冗余监控
可用 web 界面用于查看当前的网络状态、通知和故障历史、日志文件等

三、Nagios 监控实现原理

Nagios 软件需安装在一台独立的服务器上运行，这台服务器称为监控中心，监控中心服务器可以采用 Linux 或 Unix 操作系统；每一台被监视的硬件主机或服务都运行一个与监控中心服务器进行通信的 Nagios 软件后台程序，也可以理解为 Agent 或插件均可。监控中心服务器读取配置文件中的指令与远程的守护程序进行通信，并且指示远程的守护程序进行必要的检查。虽然 Nagios 软件必须在 Linux 或 Unix 操作系统上运行，但是远程被监控的机器可以是任何能够与其进行通信的主机，根据远程主机返回的应答，Naigos 将依据配置进行回应；接着 Nagios 将通过本地的机器进行测试，如果检测返回值不正确，Nagios 将通过一种或多种方式报警。

四、监控中心服务器安装配置

1. 中心服务器基本环境

操作系统：CentOS 6.4 x86_64
IP 地址：192.168.0.8

2. 安装 epel 扩展源(nagios)

[root@nagios ~]# yum install epel-release -y

3. 安装 nagios 系列软件

[root@nagios ~]# yum install httpd nagios nagios-plugins-all nagios-plugins-nrpe

4. 设置修改后台用户密码

[root@nagios ~]# htpasswd -c /etc/nagios/passwd nagiosadmin

默认用户名：nagiosadmin 密码：nagiosadmin 通过此命令可以修改密码。

5. 配置文件修改

[root@nagios ~]# vim /etc/nagios/nagios.cfg    # 配置文件基本不用修改

检查配置文件是否有语法错误：

[root@nagios ~]# nagios -v /etc/nagios/nagios.cfg

6. 启动 nagios 相关服务

 [root@nagios ~]# service nagios start
[root@nagios ~]# service httpd  start

7. 浏览器访问

http://192.168.0.8/nagios    # 注意最好要关闭 iptables 和 selinux

通过浏览器访问上述的地址，输入后台用户名和密码。默认：nagiosadmin nagiosadmin

五、监控客户端基本网络服务

1. 说明

对于客户端类似 ping、ssh、http 等基础网络服务，只需要在服务器端执行简单网络探测的命令即可查看相应的服务是否正常运行，因此对于这些服务的监控在客户端不需要安装任何的插件及服务。

2. 客户端环境

操作系统：CentOS 6.4 x86_64
IP 地址：192.168.0.28

3. 添加基本服务

在服务器端添加配置文件：
vim /etc/nagios/conf.d/192.168.0.28.cfg # 添加如下内容

 define host{# 定义主机：192.168.0.28
        use                     linux-server
        host_name               192.168.0.28
        alias                   0.28
        address                 192.168.0.28
}
 
define service{# 添加 ping 监控服务
        use                     generic-service
        host_name               192.168.0.28
        service_description     check_ping
        check_command           check_ping!100.0,20%!200.0,50%
        max_check_attempts      5
        normal_check_interval   1
}
 
define service{# 添加 ssh 监控服务
        use                     generic-service
        host_name               192.168.0.28
        service_description     check_ssh
        check_command           check_ssh
        max_check_attempts      5
        normal_check_interval   1
}
 
define service{# 添加 http 监控服务
        use                     generic-service
        host_name               192.168.0.28
        service_description     check_http
        check_command           check_http
        max_check_attempts      5
        normal_check_interval   1
}

4. 重新加载 nagios 配置文件

service nagios reload

通过浏览器访问 http://192.168.0.8/nagios 通过 Current Status –> Service 可以看到添加的主机 192.168.0.28 对应的 3 个服务的列表，刚开始都是 pending 状态，过一段时间 Status 会变成 OK 字样。

5. 配置文件解释说明

我们定义的配置文件中一共监控了三个 service: ssh ping http 这三个项目是使用本地的 nagios 工具去连接远程机器，及时没有安装任何的插件也是可以监测到的。

max_check_attempts 5：尝试检测到 5 次有问题才会告警，如果设置为 1，一旦检测到问题立马告警
normal_check_interval 1：重新检测的时间间隔，单位是分钟，默认是 3 分钟。
notification_interval 60：出现异常后故障一直没有解决，nagios 再次对使用者发出通知的时间。设置为 0，仅通知一次。

六、监控客户端本地系统服务

其它的一些 service 诸如负载、磁盘使用等需要服务端通过 nrpe 去连接到远程主机获得信息，所以需要远程主机安装 nrpe 服务以及相应的插件程序。

1. 监控客户端

IP 地址：192.168.0.28

2. 客户端需要安装的软件

 [root@nagios ~]# yum install epel-release -y        # 安装 epel 源
[root@nagios ~]# yum install nrpe -y                # 安装 nrpe 服务软件
[root@nagios ~]# yum install nagios-plugins-all -y  # 安装所有 nagios 插件

3. 配置客户端 nrpe 服务能被监控

 [root@nagios ~]# vim /etc/nagios/nrpe.cfg    # 修改如下内容
allowed_hosts=127.0.0.1,192.168.0.8          # 添加 192.168.0.8 来监控
dont_blame_nrpe=1                            # 修改 0 为 1，设置可以传递参数command[check_hda1]=/usr/lib64/nagios/plugins/check_disk -w 20% -c 10% -p /dev/sda1

4. 客户端启动 nrpe 服务

 [root@nagios ~]# service nrpe start
Starting nrpe:                                             [确定]

5. 服务器端配置来监控客户端

 [root@vip ~]# vim /etc/nagios/objects/commands.cfg
在最后面增加如下：define command{
         command_name    check_nrpe
         command_line    $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
}

[root@vip ~]# vim /etc/nagios/conf.d/192.168.0.28.cfg
增加如下内容：

 define service{# 添加监控负载
        use     generic-service
        host_name       192.168.0.28
        service_description     check_load
        check_command           check_nrpe!check_load
        max_check_attempts 5
        normal_check_interval 1
}
define service{# 添加监控 sda1 磁盘
        use     generic-service
        host_name       192.168.0.28
        service_description     check_disk_hda1
        check_command           check_nrpe!check_hda1
        max_check_attempts 5
        normal_check_interval 1
}

6. 重新加载服务器配置

[root@vip ~]# service nagios reload

通过浏览器访问 http://192.168.0.8/nagios 正常显示。

七、Nagios 配置图形显示

Nagios 对服务或主机监控的是一个瞬时状态，有时候系统管理员需要了解主机在一段时间内的性能及服务的响应状态，并且形成图表，这就需要通过查看日志数据来分析。但是这种方式不仅烦琐，而且抽象。为了能更直观的查看主机运行状态，这里采用 PNP 来实现此功能。PNP 是一个小巧的开源软件包，它是基于 PHP 和 Perl 脚本编写，PNP 可以利用 rrdtoul 工具将 Nagios 采集的数据绘制成图表，然后显示主机或者服务在一段时间内运行的状况。注：以下操作都是针对中心服务器的。

1. 安装 pnp4nagios 软件

[root@vip ~]# yum install -y pnp4nagios rrdtool

2. 修改主配置文件

 [root@vip ~]# vim /etc/nagios/nagios.cfg
修改如下配置：process_performance_data=1    
host_perfdata_command=process-host-perfdata
service_perfdata_command=process-service-perfdata 
enable_environment_macros=1

3. 修改 command.cfg 配置文件

[root@vip ~]# vim /etc/nagios/objects/commands.cfg
注释掉原有对 process-host-perfdata 和 process-service-perfdata 重新定义

 define command {command_name    process-service-perfdata  
       command_line    /usr/bin/perl /usr/libexec/pnp4nagios/process_perfdata.pl  
}  
  
define command {command_name    process-host-perfdata  
       command_line    /usr/bin/perl /usr/libexec/pnp4nagios/process_perfdata.pl -d HOSTPERFDATA  
}

4. 修改 templates.cfg 配置文件

 vim /etc/nagios/objects/templates.cfg
define host {name       hosts-pnp
        register   0
        action_url /pnp4nagios/index.php/graph?host=$HOSTNAME$&srv=_HOST_
        process_perf_data               1
}
define service {name       srv-pnp
        register   0
        action_url /pnp4nagios/index.php/graph?host=$HOSTNAME$&srv=$SERVICEDESC$ 
        process_perf_data               1
}

5. 修改 host 和 service 的配置

[root@vip ~]# vim /etc/nagios/conf.d/192.168.0.28.cfg

所有主机使用的模板后边添加 hosts-pnp：

define host{use                     linux-server,hosts-pnp

所有服务使用的模板后边添加 srv-pnp：

 define service{use     generic-service,srv-pnp
         host_name       192.168.0.48
         service_description     check_disk_hda1
         check_command           check_nrpe!check_hda1
}

6. 重启服务，再次访问

 [root@vip conf.d]# service nagios restart
[root@vip conf.d]# service httpd  restart
[root@vip conf.d]# service npcd   start

浏览器访问：http://192.168.0.8/nagios 点击 Current Status -> service 即可显示出 ” 曲线 ” 图标，等待一段时间，点击图标即可看到数据。

八、配置邮件告警

1. 增加联系人组

vim /etc/nagios/objects/contacts.cfg

增加如下内容：

 define contact{contact_name               123
        use                        generic-contact
        alias                      aming
        email                      liwei0526vip@163.com
        }
 
define contact{contact_name               456
        use                        generic-contact
        alias                      aaa
        email                      liwei0526vip@163.com
        }
 
define contactgroup{
        contactgroup_name          common
        alias                      common
        members                    123,456
        }

2. 在需要告警的相关服务中添加告警联系人

然后在要需要告警的服务里面加上contactgroup，这里示例中以 http 服务为例：

 define service{use                     generic-service,srv-pnp
        host_name               192.168.0.48
        service_description     check_http
        check_command           check_http
        max_check_attempts      5
        normal_check_interval   1
        contact_groups          common    # 添加告警联系人
}

重启服务，ok。

在 Ubuntu 下配置 Mrtg 监控 Nginx 和服务器系统资源 http://www.linuxidc.com/Linux/2013-08/88417.htm

使用 snmp+Mrtg 监控 Linux 系统 http://www.linuxidc.com/Linux/2012-11/73561.htm

Mrtg 服务器搭建（监控网络流量）http://www.linuxidc.com/Linux/2012-07/64315.htm

网络监控器 Nagios 全攻略 http://www.linuxidc.com/Linux/2013-07/87067.htm

Nagios 搭建与配置详解 http://www.linuxidc.com/Linux/2013-05/84848.htm

Nginx 环境下构建 Nagios 监控平台 http://www.linuxidc.com/Linux/2011-07/38112.htm

在 RHEL5.3 上配置基本的 Nagios 系统(使用 Nagios-3.1.2) http://www.linuxidc.com/Linux/2011-07/38129.htm

CentOS 5.5+Nginx+Nagios 监控端和被控端安装配置指南 http://www.linuxidc.com/Linux/2011-09/44018.htm

Ubuntu 13.10 Server 安装 Nagios Core 网络监控运用 http://www.linuxidc.com/Linux/2013-11/93047.htm

Nagios 系统监控基本安装配置过程详解 http://www.linuxidc.com/Linux/2017-01/139758.htm

————————————– 分割线 ————————————–

Nagios 的详细介绍：请点这里
Nagios 的下载地址：请点这里

本文永久更新链接地址：http://www.linuxidc.com/Linux/2017-01/139758.htm

Nagios 系统监控基本安装配置过程详解

一、Nagios 结构简单说明

二、Nagios 可实现的功能特性

三、Nagios 监控实现原理

四、监控中心服务器安装配置

五、监控客户端基本网络服务

六、监控客户端本地系统服务

七、Nagios 配置图形显示

八、配置邮件告警

申请腾讯混元的API Key并且使用LobeChat调用混元AI

基于Docker快速搭建一个开源的IT人员在线工具箱-it-tools

让每个人都可以轻松使用Git-腾讯自研Git客户端

使用Docker部署开源的WPS-Office

简单介绍常用hadoop dfs命令

解决修复ntp漏洞

Linux修改网卡名称

ifconfig已过时，来看看现在的新命令！

Python 中 set 是什么？为何要是用它？

2024年腾讯云最便宜的云服务器多少钱？38元一年

	[root@nagios ~]# service nagios start
	[root@nagios ~]# service httpd start

	define host{# 定义主机：192.168.0.28
	use linux-server
	host_name 192.168.0.28
	alias 0.28
	address 192.168.0.28
	}

	define service{# 添加 ping 监控服务
	use generic-service
	host_name 192.168.0.28
	service_description check_ping
	check_command check_ping!100.0,20%!200.0,50%
	max_check_attempts 5
	normal_check_interval 1
	}

	define service{# 添加 ssh 监控服务
	use generic-service
	host_name 192.168.0.28
	service_description check_ssh
	check_command check_ssh
	max_check_attempts 5
	normal_check_interval 1
	}

	define service{# 添加 http 监控服务
	use generic-service
	host_name 192.168.0.28
	service_description check_http
	check_command check_http
	max_check_attempts 5
	normal_check_interval 1
	}

	[root@nagios ~]# yum install epel-release -y # 安装 epel 源
	[root@nagios ~]# yum install nrpe -y # 安装 nrpe 服务软件
	[root@nagios ~]# yum install nagios-plugins-all -y # 安装所有 nagios 插件

	[root@nagios ~]# vim /etc/nagios/nrpe.cfg # 修改如下内容
	allowed_hosts=127.0.0.1,192.168.0.8 # 添加 192.168.0.8 来监控
	dont_blame_nrpe=1 # 修改 0 为 1，设置可以传递参数command[check_hda1]=/usr/lib64/nagios/plugins/check_disk -w 20% -c 10% -p /dev/sda1

	[root@vip ~]# vim /etc/nagios/objects/commands.cfg
	在最后面增加如下：define command{
	command_name check_nrpe
	command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
	}

	define service{# 添加监控负载
	use generic-service
	host_name 192.168.0.28
	service_description check_load
	check_command check_nrpe!check_load
	max_check_attempts 5
	normal_check_interval 1
	}
	define service{# 添加监控 sda1 磁盘
	use generic-service
	host_name 192.168.0.28
	service_description check_disk_hda1
	check_command check_nrpe!check_hda1
	max_check_attempts 5
	normal_check_interval 1
	}

	[root@vip ~]# vim /etc/nagios/nagios.cfg
	修改如下配置：process_performance_data=1
	host_perfdata_command=process-host-perfdata
	service_perfdata_command=process-service-perfdata
	enable_environment_macros=1

	define command {command_name process-service-perfdata
	command_line /usr/bin/perl /usr/libexec/pnp4nagios/process_perfdata.pl
	}

	define command {command_name process-host-perfdata
	command_line /usr/bin/perl /usr/libexec/pnp4nagios/process_perfdata.pl -d HOSTPERFDATA
	}

	vim /etc/nagios/objects/templates.cfg
	define host {name hosts-pnp
	register 0
	action_url /pnp4nagios/index.php/graph?host=$HOSTNAME$&srv=_HOST_
	process_perf_data 1
	}
	define service {name srv-pnp
	register 0
	action_url /pnp4nagios/index.php/graph?host=$HOSTNAME$&srv=$SERVICEDESC$
	process_perf_data 1
	}

	define service{use generic-service,srv-pnp
	host_name 192.168.0.48
	service_description check_disk_hda1
	check_command check_nrpe!check_hda1
	}

	[root@vip conf.d]# service nagios restart
	[root@vip conf.d]# service httpd restart
	[root@vip conf.d]# service npcd start

	define contact{contact_name 123
	use generic-contact
	alias aming
	email liwei0526vip@163.com
	}

	define contact{contact_name 456
	use generic-contact
	alias aaa
	email liwei0526vip@163.com
	}

	define contactgroup{
	contactgroup_name common
	alias common
	members 123,456
	}