共计 1415 个字符,预计需要花费 4 分钟才能阅读完成。
前言
近期再给一个用户更换服务器硬盘时发现,一是 RAID 配置错误,使用 300GB 的硬盘给 600GB 的磁盘做热备,另外是更换的硬盘型号不对导致数据没有同步。新近入职的管理员如果接手的有旧的服务器,有时间应重点检查一下硬盘及 RAID 信息,看是否有离线的硬盘或配置不合适的地方好及时纠正。
正文
今年 4 月上旬,有个单位的 2 台服务器硬盘坏了 3 块硬盘,客户让送 3 块 600GB 的硬盘并帮着给换一下。到了现场我看到了这两台服务器,其中一台服务器有 2 个硬盘亮黄灯(如图 1 所示),另一台服务器有 1 个硬盘亮黄灯(如图 2 所示)。
图 1 2 块硬盘亮黄灯
图 2 1 块硬盘亮黄灯
仔细一看,这两台服务器,每台都配置了 1 块 300GB 硬盘、3 块 600GB 硬盘。当时比较奇怪怎么有这种配置,难道这块 300GB 的用来装系统、另 3 块 600GB 的做 RAID- 5 存数据?
当时我和客户说,图 1 中这种坏了 2 块硬盘的可能需要做数据恢复了,因为 3 块硬盘的 RAID- 5 中同时坏 2 块,此时换盘是不行了。当时这台服务器已经不能启动了(图 2 中的服务器还在使用,能进入系统)。
图 1 中坏 2 块硬盘的服务器,打开电源进入 RAID 界面,看到 01、02 槽位的硬盘为 Failed 状态,如图 3 所示。
图 3 两块硬盘失败
按 Ctrl + N 组合键进入 PD Mgmt 之后整个人就有点晕了,槽位 0 的 300GB 硬盘竟然配置成了热备磁盘!如图 4 所示。
图 4 300GB 的硬盘被配置成了全局热备
客户说这台服务器已经使用多年,原来也坏过(一块)硬盘,换了之后就继续使用了。这次是系统不能用了才发现坏了两块硬盘的,以为换上就能继续使用了。当时这台服务器买的时候是 1 块 300GB 的硬盘,财务软件公司的人说一块硬盘不安全,又买了 3 块 600GB 的硬盘做的 RAID-5,是软件公司的人给配置的。估计当时这个软件公司的人也不是很懂硬件,就这样配置上了。
另外一台服务器只坏了一块硬盘,换上硬盘之后数据开始同步。因为看到的第 1 台服务器 RAID 配置不合适,我重新启动服务器进入 RAID 卡配置模块,果然这块 300GB 的硬盘也被配置成了热备磁盘,如图 5 所示。同时新换上的硬盘已经开始重组数据。
图 5 数据同步与热备磁盘配置
这是这台服务器更换硬盘后的相片,如图 6 所示。
图 6 第 2 台服务器更换硬盘之后
这时客户说,还有一台服务器,年前换了一块硬盘,这次来了顺便帮着给检查一下,这一检查就又发现新的问题了。
第三台服务器也是 3650 M5,在另一个机房,槽位 3 的硬盘是年前换的,这个机房明显环境好一些,服务器硬盘上的灰尘也少一些,如图 7 所示。
图 7 槽位 3 的硬盘是年前换上的
重新启动进入 RAID 卡,300GB 的硬盘还是配成了热备磁盘,又是熟悉的配方、熟悉的味道。但是,槽位 3 的硬盘是 Unconfigured Good,这块硬盘没有同步,如图 8 所示。
图 8 硬盘没有同步
仔细看图 7,发现新换上的硬盘托架上的序号和原来的托架序号不同(图 6 中新换上的序号和原来的相同)。好在还有 2 块新买的硬盘暂时没有用上,取下年前购买的硬盘,换上这次带来的硬盘,此时硬盘开始重组数据,此时新换上的硬盘黄灯、绿灯交替闪烁,如图 9 所示。
图 9 硬盘数据开始同步
在 RAID 界面中数据开始重组,如图 10 所示。
图 10 数据重组
一个多小时之后数据重组完成,硬盘绿灯闪烁,此时这台服务器检查完成,如图 11 所示。
后期建议,如果客户需要热备磁盘,应该是每台取下原来 300GB 的硬盘,添加一块 600GB 的硬盘并重新配置成热备磁盘。
图 11 硬盘状态正常