阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Nagios监控Dell服务器硬件状态

228次阅读
没有评论

共计 18637 个字符,预计需要花费 47 分钟才能阅读完成。

Nagios 监控 Dell 服务器

Server:

check_openmanage 是一个 Nagios 的插件,它基于 OMSA 获取相关的报道信息,用来检测安装有 OpenManage Server Administrator (OMSA) 的戴尔服务器的运行状态,包括存储系统、电源、温度等信息。

官网:http://folk.uio.no/trondham/software/check_openmanage.html

最新版本下载链接:http://folk.uio.no/trondham/software/files/check_openmanage-3.7.12.tar.gz

nagios 提供了两种方式进行监控信息的获取。

1、nagios 服务器端 check_nrpe 调用被监控端的 check_openmanage 来实现,这种方式要在被监控端安装 OMSA 和 check_openmanage,check_nrpe 会消耗服务器性能, 不建议使用

2、nagios 服务器端直接通过 check_openmanage 来远程监控。这种方式要在 nagios 服务器端安装 perl-Net-SNMP,在被监控端安装 SNMP 和 OMSA。这种方式也适合使用 zabbix 的运维监控环境。

Nagios 监控 Dell 服务器硬件状态

1、安装 perl-Net-SNMP
[root@localhost src]# yum install -y perl-Net-SNMP

2、check_openmanage 安装
[root@localhost src]# tar zxvf check_openmanage-3.7.12.tar.gz 
[root@localhost src]# cd check_openmanage-3.7.12
[root@localhost check_openmanage-3.7.12]# cp check_openmanage /usr/local/nagios/libexec
[root@localhost check_openmanage-3.7.12]# cd /usr/local/nagios/libexec
[root@localhost libexec]# chown nagios:nagios check_openmanagenew 
[root@localhost libexec]# ./check_openmanage –help 
【通用选项】
-f,–config        # 指定配置文件
-p,–perfdata      # 输出性能数据,常和 –only 连用,不要和 - d 连用
-t,–timeout 时间值 # 设定 check_openmanage 的执行超时时间
-c,–critical      # 自定义温度的 critical 阈值
-w,–warning        # 自定义温度的 warning 阈值
-F,–fahrenheit    # 使用华氏温度作为温度单位
-d,–debug          # 显示所有检查项目
-h,–help          # 获取 check_openmanage 帮助信息
-V,–version        # 获取 check_openmanage 的版本信息
【SNMP 选项】
-H,–hostname      # 使用 snmp 协议,获取指定主机名或 ip 的服务器硬件信息
-C,–community      # 自定义 snmp 的团体名,默认为 public
-P,–protocol      # 自定义 snmp 的协议版本,默认为 2c
–port              # 自定义 snmp 的端口号,默认为 161
-6,–ipv6          # 使用 ipv6 替代 ipv4,默认为 no
–tcp                # 使用 TCP 协议替代 UDP 协议,默认为 no
【输出选项】
-i,–info          # 输出的警告信息加上服务器的 SN 号作为前缀
-e,–extinfo        # 输出系统信息
-s,–state          # 输出的信息之前自带警告级别,如 warning 或 critical
-S,–short-state    # 输出的信息之前自带警告级别缩写,如 W 或 C
-o,–okinfo        # 输出信息为一行(默认)
-B,–show-blacklist # 输出黑名单列表信息,如果加入黑名单的信息多了,可以通过 - B 查看黑名单的列表信息
-I,–htmlinfo      # 输出带可点击链接的 html 格式信息
【检查控制和黑名单】
-a,–all            # 获取日志统计和详细日志输出
-b,–blacklist component=ID 号  # 黑名单,指定某个组件的指定 ID 信息不显示。ID 信息通过./check_openmanage - d 可以看到。./check_openmanage -H 10.15.98.177 -d
–only              # 仅输入某项监控数据
–check component=[0|1],esmlog=[0|1]  # 检查单个项目或组合项目,0 为不检查,1 为检查,单独使用
–no-storage        # 不检查存储信息
–vdisk-critical    # 将虚拟磁盘的任何警告都提升为崩溃级别 critical
 
【自定义输出信息】
–postmsg ‘ 自定义信息 ’  # 在输出的结尾输出该自定义信息
在自定义信息中,我们可以使用如下变量
      %m  # 系统型号
      %s  # 系统 SN 号
      %b  # BIOS 版本
      %d  # BIOS 发型时间
      %o  # 操作系统名称
      %r  # 操作系统内核版本
      %p  # 物理磁盘数量
      %l  # 逻辑磁盘数量
      %n  # 表示换行符
      %%  # 表示 % 百分号
 [root@localhost libexec]# ./check_openmanage  如果提示 ”Storage Error”,则需要加上 –no-storage 参数,不带任何参数默认输出服务器的 warning 和 critical 的报警信息
 [root@localhost libexec]# ./check_openmanage -s    输出带有状态提示的信息 
 [root@localhost libexec]# ./check_openmanage -s -b ctrl_fw=0  不检查 Firmware 固件版本更新提示
 [root@localhost libexec]# ./check_openmanage -s -b pdisk_cert=all  不检查磁盘未认证的提示
 [root@localhost libexec]# ./check_openmanage -b ctrl_fw=0\/pdisk=0:0:1:0    不检查 ID 为 0 的 Firmware 固件版本更新提示和 ID 为 0:0:1:0 的物理磁盘的未认证提示
 [root@localhost libexec]# ./check_openmanage -b ctrl_fw=0\/pdisk=ALL  不检查 ID 为 0 的 Firmware 固件版本更新提示和未认证的物理磁盘提示
[root@localhost libexec]# ./check_openmanage -d  输出所有检查项目
[root@localhost libexec]# ./check_openmanage -i  将服务器的 SN 号作为警告信息的输出前缀
[root@localhost libexec]# ./check_openmanage –no-storage  不检查存储
[root@localhost libexec]# ./check_openmanage -e -b ctrl_fw=0\/pdisk=ALL  不显示 Firmware 固件版本更新和未认证磁盘提示信息,并输出系统信息
[root@localhost libexec]# ./check_openmanage -H 10.15.98.177 -C public -e -b bat=0:0 -b ctrl_fw=0\/pdisk=ALL –postmsg %o
Controller 1 [PERC H800 Adapter]: Firmware ‘12.10.4-0001’ is out of date
[root@localhost libexec]# ./check_openmanage -H 10.15.98.177 -d|grep -C3 “is out of date”
  STATE  |    ID    |  MESSAGE TEXT                                         
———+———-+——————————————————–
      OK |        0 | Controller 0 [PERC H310 Adapter] is Ready
CRITICAL |        1 | Controller 1 [PERC H800 Adapter]: Firmware ‘12.10.4-0001’ is out of date                #id 为 1
      OK |        1 | Controller 1 [PERC H800 Adapter] is Degraded
      OK |  0:0:1:0 | Physical Disk 0:1:0 [SAS-HDD 300GB] on ctrl 0 is Online
      OK |  1:0:0:2 | Physical Disk 0:0:2 [SAS-HDD 2.0TB] on ctrl 1 is Online
[root@localhost libexec]# ./check_openmanage -H 10.15.98.177 -C public -e -b ctrl_fw=1 -b bat=0:0 -b ctrl_fw=0\/pdisk=ALL –postmsg %o
OK – System: ‘PowerEdge R620’, SN: ‘ 马赛克 ’, 16 GB ram (4 dimms), 2 logical drives, 7 physical drives
[root@localhost libexec]# ./check_openmanage -H 10.17.205.164 -C public -e -b bat=0:0 -b ctrl_fw=0 -b ctrl_fw=0\/pdisk=ALL –postmsg %o
Controller 0 [PERC H700 Integrated]: Driver ‘4.05.01.64’ is out of date
[root@localhost libexec]# ./check_openmanage -H 10.17.205.164 -d|grep -i “is out of date”
CRITICAL |        0 | Controller 0 [PERC H700 Integrated]: Firmware ‘12.10.1-0001’ is out of date  #-b ctrl_fw=0 忽略此项
CRITICAL |        0 | Controller 0 [PERC H700 Integrated]: Driver ‘4.05.01.64’ is out of date      #-b ctrl_driver=0 忽略此项
[root@localhost libexec]# ./check_openmanage -H 10.17.205.164 -C public -e -b bat=0:0 -b ctrl_fw=0 -b ctrl_driver=0 -b ctrl_fw=12.10.4-0001\/pdisk=ALL –postmsg %o
OK – System: ‘PowerEdge R710 II’, SN: ‘3D4973X’, 32 GB ram (8 dimms), 2 logical drives, 5 physical drives
[root@localhost libexec]# ./check_openmanage -H 192.168.100.165 -C public -e -b bat=0:0 -b ctrl_driver=ALL\/ctrl_fw=ALL\/pdisk=ALL –postmsg %o
Battery probe 0 [System Board CMOS Battery] is Unknown reading
—— SYSTEM: PowerEdge R630, SN: 马赛克
Microsoft Windows Server 2008 R2, Enterprise x64 Edition
[root@localhost libexec]# ./check_openmanage -H 192.168.100.165 -C public -e -b bat=0:0\/bp=ALL\/ctrl_driver=ALL\/ctrl_fw=ALL\/pdisk=ALL –postmsg %o
OK – System: ‘PowerEdge R630’, SN: ‘ 马赛克 ’, 128 GB ram (8 dimms), 1 logical drives, 3 physical drives  #bp=ALL  忽略电池检测
[root@localhost libexec]#

黑名单功能中可以使用的参数表

Nagios 监控 Dell 服务器硬件状态

Nagios 监控 Dell 服务器硬件状态

Nagios 监控 Dell 服务器硬件状态

更多信息查看官方文档 http://folk.uio.no/trondham/software/check_openmanage.html

Nagios 监控 Dell 服务器硬件状态

Tips: 最近发现一台服务器硬盘坏了,nagios 里还是显示 warning,所以将 check_openmange 里的 344 行的 warning 改成 critical,便于及时发现

[root@localhost libexec]# vim check_openmanage
 341 %reverse_exitcode
 342  = (
 343      $E_OK      => ‘OK’,
 344      $E_WARNING  => ‘CRITICAL’,
 345      $E_CRITICAL => ‘CRITICAL’,
 346      $E_UNKNOWN  => ‘UNKNOWN’,
 347    );

3、配置 command
[root@localhost libexec]# vim /usr/local/nagios/etc/objects/commands.cfg
# 检查存储设备
define command {
    command_name check_storage
    command_line $USER1$/check_openmanage -H $HOSTADDRESS$ –only storage -p -s -b ctrl_fw=0
}
# 检查 cpu
define command {
    command_name check_cpu
    command_line $USER1$/check_openmanage -H $HOSTADDRESS$ –only cpu -p -s -b ctrl_fw=0
}
# 检查内存
define command {
    command_name check_memory
    command_line $USER1$/check_openmanage -H $HOSTADDRESS$ –only memory -p -s -b ctrl_fw=0
}
# 检查电源
define command {
    command_name check_power
    command_line $USER1$/check_openmanage -H $HOSTADDRESS$ –only power -p -s -b ctrl_fw=0
}
# 检查温度
define command {
    command_name check_temp
    command_line $USER1$/check_openmanage -H $HOSTADDRESS$ –only temp -p -s -w $ARG1$ -c $ARG2$ -b ctrl_fw=0
}

–only 是指只监控某一项,- p 是进行画图,- s 是状态描述,- b 是黑名单,由于我们的服务器固件版本低,为不影响其他监控项在此我们将其加入黑名单将其剔除。

4、配置监控服务
define service{
    use                    local-service   
    host_name              usvr-131,usvr-119,usvr-70,usvr-71,usvr-72,usvr-73,usvr-82,usvr-83,usvr-84,usvr-85,usvr-86,usvr-87
    service_description    omsa_storage
    check_command          check_storage
    service_groups          dell-openmanage
    notifications_enabled  1 
    }   
define service{
    use                    local-service   
    host_name              usvr-131,usvr-119,usvr-70,usvr-71,usvr-72,usvr-73,usvr-82,usvr-83,usvr-84,usvr-85,usvr-86,usvr-87
    service_description    omsa_cpu
    check_command          check_cpu
    service_groups          dell-openmanage
    notifications_enabled  1 
    }   
define service{
    use                    local-service   
    host_name              usvr-131,usvr-119,usvr-70,usvr-71,usvr-72,usvr-73,usvr-82,usvr-83,usvr-84,usvr-85,usvr-86,usvr-87
    service_description    omsa_memory
    check_command          check_memory
    service_groups          dell-openmanage
    notifications_enabled  1 
    }   
define service{
    use                    local-service   
    host_name              usvr-131,usvr-119,usvr-70,usvr-71,usvr-72,usvr-73,usvr-82,usvr-83,usvr-84,usvr-85,usvr-86,usvr-87
    service_description    omsa_power
    check_command          check_power
    service_groups          dell-openmanage
    notifications_enabled  1 
    }   
define service{
    use                    local-service   
    host_name              usvr-131,usvr-119,usvr-70,usvr-71,usvr-72,usvr-73,usvr-82,usvr-83,usvr-84,usvr-85,usvr-86,usvr-87
    service_description    omsa_temp
    check_command          check_temp!”0=30/15″!”0=40/10″
    service_groups          dell-openmanage
    notifications_enabled  1 
    }

报错 1:
ERROR: You need perl module Net::SNMP to run check_openmanage in SNMP mode
原因:
SNMP 监控模式下,check_openmanage 需要 perl-Net-SNMP 支持
解决方案:
安装 perl-Net-SNMP 包
# yum install -y perl-Net-SNMP
报错 2:
ERROR: (SNMP) OpenManage is not installed or is not working correctly
SNMP TABLE ERROR : Requested table is empty or does not exist
原因:
snmp 未配置导致。如果先安装 snmp,在安装 omsa 的时候会自动帮你配置好 snmp
解决方案:
1、先安装 net-snmp,再安装 omsa(即 srvadmin-all)
or
2、手动配置信息如下:
vim /etc/snmp/snmpd.conf
view all included .1   
access notConfigGroup “” any noauth exact all none none
smuxpeer .1.3.6.1.4.1.674.10892.1 一般安装 srvadmin 的时候会自动加上的
报错 3:
SNMP CRITICAL: No response from remote host ‘X.X.X.X’
原因:
被监控端没有安装 snmp 服务
解决方案:
安装 snmp 服务
# yum install -y net-snmpd

 ——————————————————————————-
Client:
对 Dell 服务器的硬件监控需要安装 DELL 的 OMSA,DELL OMSA 的全称为 Dell Openmanage Server Administrator,它是戴尔公司基于自主研发力量开发的 IT 系统管理解决方案,

nagios 监控 Dell linux 系统

1、安装 snmp 服务
[root@BETA6 yum.repos.d]# yum -y install net-snmp net-snmp-devel net-snmp-utils

2、安装 dell 的 yum 源
wget -q -O – http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash
或者
wget -q -O – http://linux.dell.com/repo/hardware/OMSA_7.2/bootstrap.cgi | bash
注意:只适用 rhel 系统,CentOS 系统无法安装

[root@BETA6 src]# wget -q -O – http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash
Cleaning up Everything
Done!
[root@BETA6 src]#

3、安装 dell osma
yum -y install OpenIPMI srvadmin-all
或者
yum install -y srvadmin-base srvadmin-storageservices  推荐, 安装必要的软件, 速度快
1234567891011121314151617181920 [root@BETA6 yum.repos.d]# yum -y install OpenIPMI srvadmin-all
[root@BETA6 yum.repos.d]# /opt/dell/srvadmin/sbin/srvadmin-services.sh start
[root@BETA6 yum.repos.d]# /etc/init.d/dataeng stop
[root@BETA6 yum.repos.d]# /etc/init.d/dataeng start
[root@BETA6 yum.repos.d]# chkconfig dataeng on
或者
[root@BETA6 yum.repos.d]# /opt/dell/srvadmin/sbin/srvadmin-services.sh enable  推荐
instsvcdrv        0:off  1:off  2:on    3:on    4:on    5:on    6:off
dataeng        0:off  1:off  2:on    3:on    4:on    5:on    6:off
dsm_om_shrsvc    0:off  1:off  2:on    3:on    4:on    5:on    6:off
ipmi            0:off  1:off  2:on    3:on    4:on    5:on    6:off
[root@BETA6 yum.repos.d]# /opt/dell/srvadmin/sbin/srvadmin-services.sh status
dell_rbu(module) is running
ipmidriver is running
dsm_sa_datamgrd(pid 1331 1197) is running
dsm_sa_eventmgrd(pid 1381) is running
dsm_sa_snmpd(pid 1440) is running
dsm_om_shrsvcd(pid 1508) is running…
dsm_om_connsvcd(pid 1562) is running…
[root@BETA6 yum.repos.d]# netstat -antlp|grep :1311

如果有此端口则说明我们的 srvadmin 安装成功,如果没有可能是安装出现问题了;dsm_om_connsvc 服务监听了 TCP 协议的 1311 端口,并且提供了 http 访问的功能。另外我们安装完后首次启动用 /opt/dell/srvadmin/sbin/srvadmin-services.sh start,否则用 service dataeng start 启动可能会有问题,导致 omsa 没有完全启动。dsm_om_connsvc 服务监听了 TCP 协议的 1311 端口,并且提供了 http 访问的功能。

注意:
(1)一定要先安装 snmp 服务再安装 omsa,这样 omsa 会自动将你的 snmp 服务进行配置,如果顺序颠倒则可能会导致报一下错误:

ERROR: (SNMP) OpenManage is not installed or is not working correctly

这是因为我们的 /etc/snmp/snmpd.conf 配置文件有漏改的地方,主要是以下几处:(改正以后如下)
view  all included  .1
view  systemview  included      .1.3.6.1.2.1.1
view  systemview  included      .1.3.6.1.2.1.25.1.1
access notConfigGroup “”any noauth exact all all none

(2)如果报一下错误“SNMP CRITICAL: No response from remote host ‘X.X.X.X’”,则说明被监控端没有安装 snmp 服务

4、查看本机的硬件状态
1)查看系统主要组件的温度
[root@BETA6 yum.repos.d]# /opt/dell/srvadmin/bin/omreport chassis temps
Temperature Probes Information
 
————————————
Main System Chassis Temperatures: Ok
————————————
 
Index                    : 0
Status                    : Ok
Probe Name                : System Board Inlet Temp
Reading                  : 27.0 C
Minimum Warning Threshold : 3.0 C
Maximum Warning Threshold : 42.0 C
Minimum Failure Threshold : -7.0 C
Maximum Failure Threshold : 47.0 C
……

2)查看虚拟硬盘的状态
[root@BETA6 yum.repos.d]# /opt/dell/srvadmin/bin/omreport storage vdisk controller=0
Virtual Disk 0 on Controller PERC H710 Mini (Embedded)
 
Controller PERC H710 Mini (Embedded)
ID                        : 0
Status                    : Ok
Name                      : Virtual Disk 0
State                    : Ready
Hot Spare Policy violated : Not Assigned
Encrypted                : No
Layout                    : RAID-5
Size                      : 1,675.50 GB (1799054426112 bytes)
Device Name              : /dev/sda
……

3)查看控制器 (即 RAID 卡) 的属性
[root@BETA6 yum.repos.d]# /opt/dell/srvadmin/bin/omreport storage controller
 Controller  PERC H710 Mini (Embedded)
 
Controllers
ID                                            : 0
Status                                        : Ok
Name                                          : PERC H710 Mini
Slot ID                                      : Embedded
State                                        : Ready
Firmware Version                              : 21.2.0-0007
Latest Available Firmware Version            : Not Applicable
Driver Version                                : 00.00.06.15-rh
Minimum Required Driver Version              : Not Applicable
Storport Driver Version                      : Not Applicable
Minimum Required Storport Driver Version      : Not Applicable
Number of Connectors                          : 2
Rebuild Rate                                  : 30%
……

5、防火墙配置
由于我们使用的是 SNMP 来监控,因此我们需要在被监控端对 nagios 服务器开启 snmp 端口 udp 161
/sbin/iptables -A INPUT -i em1 -p udp -s 10.10.5.89 –dport 161 -m comment –comment “nagios snmp” -j ACCEPT

——————————————————————————–
OMSA 在 Windows 服务器上安装部署

访问戴尔技术支持的官方网站:http://www.dell.com/support/home/cn/zh/cnbsd1?c=cn&l=zh&s=bsdi,根据 sn 号查找驱动程序选项栏里统管理标签下下载对应的版本

Nagios 监控 Dell 服务器硬件状态

具体安装过程参照此贴:http://zh.community.dell.com/techcenter/systems-management/w/wiki/559.omsawindows

Linux 上 Nagios 安装配置初入门  http://www.linuxidc.com/Linux/2016-08/133870.htm

Nagios 监控 SNMP 温度计  http://www.linuxidc.com/Linux/2016-08/134461.htm

Nagios 监控系统主机与服务配置  http://www.linuxidc.com/Linux/2017-02/140486.htm

Nagios 邮件报警配置简述  http://www.linuxidc.com/Linux/2017-02/140834.htm

Nagios 本机及其他主机监控安装部署详解  http://www.linuxidc.com/Linux/2017-03/141600.htm

Nagios 的详细介绍:请点这里
Nagios 的下载地址:请点这里

本文永久更新链接地址:http://www.linuxidc.com/Linux/2017-05/143829.htm

Nagios 监控 Dell 服务器

Server:

check_openmanage 是一个 Nagios 的插件,它基于 OMSA 获取相关的报道信息,用来检测安装有 OpenManage Server Administrator (OMSA) 的戴尔服务器的运行状态,包括存储系统、电源、温度等信息。

官网:http://folk.uio.no/trondham/software/check_openmanage.html

最新版本下载链接:http://folk.uio.no/trondham/software/files/check_openmanage-3.7.12.tar.gz

nagios 提供了两种方式进行监控信息的获取。

1、nagios 服务器端 check_nrpe 调用被监控端的 check_openmanage 来实现,这种方式要在被监控端安装 OMSA 和 check_openmanage,check_nrpe 会消耗服务器性能, 不建议使用

2、nagios 服务器端直接通过 check_openmanage 来远程监控。这种方式要在 nagios 服务器端安装 perl-Net-SNMP,在被监控端安装 SNMP 和 OMSA。这种方式也适合使用 zabbix 的运维监控环境。

Nagios 监控 Dell 服务器硬件状态

1、安装 perl-Net-SNMP
[root@localhost src]# yum install -y perl-Net-SNMP

2、check_openmanage 安装
[root@localhost src]# tar zxvf check_openmanage-3.7.12.tar.gz 
[root@localhost src]# cd check_openmanage-3.7.12
[root@localhost check_openmanage-3.7.12]# cp check_openmanage /usr/local/nagios/libexec
[root@localhost check_openmanage-3.7.12]# cd /usr/local/nagios/libexec
[root@localhost libexec]# chown nagios:nagios check_openmanagenew 
[root@localhost libexec]# ./check_openmanage –help 
【通用选项】
-f,–config        # 指定配置文件
-p,–perfdata      # 输出性能数据,常和 –only 连用,不要和 - d 连用
-t,–timeout 时间值 # 设定 check_openmanage 的执行超时时间
-c,–critical      # 自定义温度的 critical 阈值
-w,–warning        # 自定义温度的 warning 阈值
-F,–fahrenheit    # 使用华氏温度作为温度单位
-d,–debug          # 显示所有检查项目
-h,–help          # 获取 check_openmanage 帮助信息
-V,–version        # 获取 check_openmanage 的版本信息
【SNMP 选项】
-H,–hostname      # 使用 snmp 协议,获取指定主机名或 ip 的服务器硬件信息
-C,–community      # 自定义 snmp 的团体名,默认为 public
-P,–protocol      # 自定义 snmp 的协议版本,默认为 2c
–port              # 自定义 snmp 的端口号,默认为 161
-6,–ipv6          # 使用 ipv6 替代 ipv4,默认为 no
–tcp                # 使用 TCP 协议替代 UDP 协议,默认为 no
【输出选项】
-i,–info          # 输出的警告信息加上服务器的 SN 号作为前缀
-e,–extinfo        # 输出系统信息
-s,–state          # 输出的信息之前自带警告级别,如 warning 或 critical
-S,–short-state    # 输出的信息之前自带警告级别缩写,如 W 或 C
-o,–okinfo        # 输出信息为一行(默认)
-B,–show-blacklist # 输出黑名单列表信息,如果加入黑名单的信息多了,可以通过 - B 查看黑名单的列表信息
-I,–htmlinfo      # 输出带可点击链接的 html 格式信息
【检查控制和黑名单】
-a,–all            # 获取日志统计和详细日志输出
-b,–blacklist component=ID 号  # 黑名单,指定某个组件的指定 ID 信息不显示。ID 信息通过./check_openmanage - d 可以看到。./check_openmanage -H 10.15.98.177 -d
–only              # 仅输入某项监控数据
–check component=[0|1],esmlog=[0|1]  # 检查单个项目或组合项目,0 为不检查,1 为检查,单独使用
–no-storage        # 不检查存储信息
–vdisk-critical    # 将虚拟磁盘的任何警告都提升为崩溃级别 critical
 
【自定义输出信息】
–postmsg ‘ 自定义信息 ’  # 在输出的结尾输出该自定义信息
在自定义信息中,我们可以使用如下变量
      %m  # 系统型号
      %s  # 系统 SN 号
      %b  # BIOS 版本
      %d  # BIOS 发型时间
      %o  # 操作系统名称
      %r  # 操作系统内核版本
      %p  # 物理磁盘数量
      %l  # 逻辑磁盘数量
      %n  # 表示换行符
      %%  # 表示 % 百分号
 [root@localhost libexec]# ./check_openmanage  如果提示 ”Storage Error”,则需要加上 –no-storage 参数,不带任何参数默认输出服务器的 warning 和 critical 的报警信息
 [root@localhost libexec]# ./check_openmanage -s    输出带有状态提示的信息 
 [root@localhost libexec]# ./check_openmanage -s -b ctrl_fw=0  不检查 Firmware 固件版本更新提示
 [root@localhost libexec]# ./check_openmanage -s -b pdisk_cert=all  不检查磁盘未认证的提示
 [root@localhost libexec]# ./check_openmanage -b ctrl_fw=0\/pdisk=0:0:1:0    不检查 ID 为 0 的 Firmware 固件版本更新提示和 ID 为 0:0:1:0 的物理磁盘的未认证提示
 [root@localhost libexec]# ./check_openmanage -b ctrl_fw=0\/pdisk=ALL  不检查 ID 为 0 的 Firmware 固件版本更新提示和未认证的物理磁盘提示
[root@localhost libexec]# ./check_openmanage -d  输出所有检查项目
[root@localhost libexec]# ./check_openmanage -i  将服务器的 SN 号作为警告信息的输出前缀
[root@localhost libexec]# ./check_openmanage –no-storage  不检查存储
[root@localhost libexec]# ./check_openmanage -e -b ctrl_fw=0\/pdisk=ALL  不显示 Firmware 固件版本更新和未认证磁盘提示信息,并输出系统信息
[root@localhost libexec]# ./check_openmanage -H 10.15.98.177 -C public -e -b bat=0:0 -b ctrl_fw=0\/pdisk=ALL –postmsg %o
Controller 1 [PERC H800 Adapter]: Firmware ‘12.10.4-0001’ is out of date
[root@localhost libexec]# ./check_openmanage -H 10.15.98.177 -d|grep -C3 “is out of date”
  STATE  |    ID    |  MESSAGE TEXT                                         
———+———-+——————————————————–
      OK |        0 | Controller 0 [PERC H310 Adapter] is Ready
CRITICAL |        1 | Controller 1 [PERC H800 Adapter]: Firmware ‘12.10.4-0001’ is out of date                #id 为 1
      OK |        1 | Controller 1 [PERC H800 Adapter] is Degraded
      OK |  0:0:1:0 | Physical Disk 0:1:0 [SAS-HDD 300GB] on ctrl 0 is Online
      OK |  1:0:0:2 | Physical Disk 0:0:2 [SAS-HDD 2.0TB] on ctrl 1 is Online
[root@localhost libexec]# ./check_openmanage -H 10.15.98.177 -C public -e -b ctrl_fw=1 -b bat=0:0 -b ctrl_fw=0\/pdisk=ALL –postmsg %o
OK – System: ‘PowerEdge R620’, SN: ‘ 马赛克 ’, 16 GB ram (4 dimms), 2 logical drives, 7 physical drives
[root@localhost libexec]# ./check_openmanage -H 10.17.205.164 -C public -e -b bat=0:0 -b ctrl_fw=0 -b ctrl_fw=0\/pdisk=ALL –postmsg %o
Controller 0 [PERC H700 Integrated]: Driver ‘4.05.01.64’ is out of date
[root@localhost libexec]# ./check_openmanage -H 10.17.205.164 -d|grep -i “is out of date”
CRITICAL |        0 | Controller 0 [PERC H700 Integrated]: Firmware ‘12.10.1-0001’ is out of date  #-b ctrl_fw=0 忽略此项
CRITICAL |        0 | Controller 0 [PERC H700 Integrated]: Driver ‘4.05.01.64’ is out of date      #-b ctrl_driver=0 忽略此项
[root@localhost libexec]# ./check_openmanage -H 10.17.205.164 -C public -e -b bat=0:0 -b ctrl_fw=0 -b ctrl_driver=0 -b ctrl_fw=12.10.4-0001\/pdisk=ALL –postmsg %o
OK – System: ‘PowerEdge R710 II’, SN: ‘3D4973X’, 32 GB ram (8 dimms), 2 logical drives, 5 physical drives
[root@localhost libexec]# ./check_openmanage -H 192.168.100.165 -C public -e -b bat=0:0 -b ctrl_driver=ALL\/ctrl_fw=ALL\/pdisk=ALL –postmsg %o
Battery probe 0 [System Board CMOS Battery] is Unknown reading
—— SYSTEM: PowerEdge R630, SN: 马赛克
Microsoft Windows Server 2008 R2, Enterprise x64 Edition
[root@localhost libexec]# ./check_openmanage -H 192.168.100.165 -C public -e -b bat=0:0\/bp=ALL\/ctrl_driver=ALL\/ctrl_fw=ALL\/pdisk=ALL –postmsg %o
OK – System: ‘PowerEdge R630’, SN: ‘ 马赛克 ’, 128 GB ram (8 dimms), 1 logical drives, 3 physical drives  #bp=ALL  忽略电池检测
[root@localhost libexec]#

黑名单功能中可以使用的参数表

Nagios 监控 Dell 服务器硬件状态

Nagios 监控 Dell 服务器硬件状态

Nagios 监控 Dell 服务器硬件状态

更多信息查看官方文档 http://folk.uio.no/trondham/software/check_openmanage.html

Nagios 监控 Dell 服务器硬件状态

Tips: 最近发现一台服务器硬盘坏了,nagios 里还是显示 warning,所以将 check_openmange 里的 344 行的 warning 改成 critical,便于及时发现

[root@localhost libexec]# vim check_openmanage
 341 %reverse_exitcode
 342  = (
 343      $E_OK      => ‘OK’,
 344      $E_WARNING  => ‘CRITICAL’,
 345      $E_CRITICAL => ‘CRITICAL’,
 346      $E_UNKNOWN  => ‘UNKNOWN’,
 347    );

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计18637字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中