共计 2081 个字符,预计需要花费 6 分钟才能阅读完成。
公司使用的是 HP gen8 机器,用的是 p420i 阵列卡,同时在系统的另一端,nagios 监控系统配合 nrpe 脚本 check_hpasm 定期检测硬件健康。
最近为了让机器更带劲,加上了 SSD 硬盘,机械硬盘仅用作大容量存储,在感受速度与激情的同时,悲剧接踵而至。
nagios 监控报警,硬件出错:
CRITICAL – da controller 1 in slot 1 needs attention, System: ‘proliant dl3x0e gen8’, S/N: ‘CN74xxxxx’, ROM: ‘P73 12/20/2013’
Performance Data: pc_1=65 fan_5=27% fan_6=27% fan_7=27% fan_8=27% temp_1_ambient=23;42;42 temp_2_cpu#1=40;70;70 temp_4_memory_bd=24;87;87 temp_6_memory_bd=25;80;80 temp_7_memory_bd=26;80;80 temp_8_memory_bd=26;80;80 temp_9_memory_bd=25;80;80 temp_10_memory_bd=25;80;80 temp_11_memory_bd=26;80;80 temp_12_system_bd=35;60;60 temp_13_system_bd=44;105;105 temp_14_system_bd=33;95;95 temp_17_power_supply_bay=26;80;80 temp_18_power_supply_bay=25;80;80 temp_19_system_bd=25;110;110 temp_20_system_bd=21;110;110 temp_21_system_bd=24;110;110 temp_22_system_bd=26;110;110 temp_23_system_bd=21;65;65 temp_26_system_bd=35;100;100 temp_28_system_bd=28;90;90 temp_29_i/o_zone=85;100;100 temp_31_i/o_zone=32;80;80 temp_32_i/o_zone=25;80;80 temp_33_system_bd=32;80;80 temp_34_system_bd=30;80;80 temp_35_system_bd=30;80;80 temp_36_system_bd=31;80;80 temp_37_system_bd=29;80;80
由于报警内容非常含糊,像是一颗 ***,根本不敢将机器正式投入运营,不得不将机器从机房运回来仔细测试。感觉是硬件故障,但是替换了阵列卡甚至重装了 N 次操作系统之后,依然报相同的错误。如果不用 SSD,只使用普通硬盘,就不会报错。
最终的问题定位到了 HP 阵列卡里的 HP SSD smart path 功能,该功能可以加速 SSD 盘读写,有点混合硬盘的味道,即当作机械硬盘的缓存。但是很抱歉,如果你使用 SSD 硬盘安装操作系统的话,会有上面的报错。
解决办法:
yum install http://downloads.linux.hp.com/SDR/downloads/MCP/CentOS/7/x86_64/10.0/hpssacli-2.0-22.0.x86_64.rpm http://downloads.linux.hp.com/SDR/downloads/MCP/CentOS/7/x86_64/10.0/hpssa-2.0-22.0.x86_64.rpm-y
/usr/sbin/hpssacli controller slot=1 array a modify ssdsmartpath=disable
hpssacli-2.0-22.0.x86_64.rpm,经过测试,这个包 centos 6/7 都适用。
网络监控器 Nagios 全攻略 http://www.linuxidc.com/Linux/2013-07/87067.htm
Nagios 搭建与配置详解 http://www.linuxidc.com/Linux/2013-05/84848.htm
Nginx 环境下构建 Nagios 监控平台 http://www.linuxidc.com/Linux/2011-07/38112.htm
在 RHEL5.3 上配置基本的 Nagios 系统 (使用 Nagios-3.1.2) http://www.linuxidc.com/Linux/2011-07/38129.htm
CentOS 5.5+Nginx+Nagios 监控端和被控端安装配置指南 http://www.linuxidc.com/Linux/2011-09/44018.htm
Ubuntu 13.10 Server 安装 Nagios Core 网络监控运用 http://www.linuxidc.com/Linux/2013-11/93047.htm
Nagios 的详细介绍 :请点这里
Nagios 的下载地址 :请点这里