共计 548 个字符,预计需要花费 2 分钟才能阅读完成。
导读 | 该笔记主要记录一下如何排查指定服务器中的指定内存条是否损坏。 |
1. 内存故障排查
因为 68 – 71 软 SBC 服务器都是 Centos7 系统,所以我们可以通过以下命令来排查内存是否出现损坏。
grep "[0-9]" /sys/devices/system/edac/mc/mc/csrow/ch*_ce_count
1> count 不为 0 表示有错误
2> mc 代表第几个 cpu,
3> csrow 内存通道,
4> ch 第几个内存
EDAC 即 error detection and correction(错误检测与纠正),是 Linux 系统内部的机制。在上面的日志中,可以清楚地看出是内存读错误。MC 即 memory controller(内存控制器)。CE 则代表 correctable error,是 ECC 内存中可以纠正的错误,相对地还有 UE(uncorrectable error)。为了摸清是哪些内存出了问题,找出所有内存的 CE 计数, 由上图可知,第四块内存出现了故障。
通过 dmidecode -t memory 命令,可以查看每个 DIMM
2.CPU 排查 cat /sys/devices/system/cpu/cpu*/online
正文完
星哥玩云-微信公众号