Administrator
Published on 2026-01-04 / 2 Visits
0
0

一条告警就能让服务器“瞬间倒下”:DIMM Uncorrectable Error 到底有多危险?

“DIMM100 triggered an uncorectable error”

这句话通常来自服务器 BMC/SEL 日志(iDRAC / iLO / IPMI)或操作系统的硬件事件日志,意思是:

某个内存条(DIMM100)发生了“不可纠正”的 ECC 错误(Uncorrectable Error,UE)。
这种错误 无法靠 ECC 自动修复,往往会导致 机器宕机/重启、Kernel panic、MCE 报错,属于需要立刻处理的硬件告警级别。

下面按“先确认、再隔离、最后修复”的顺序给你一套排查/处置流程。


1) 先确认:DIMM100 到底对应哪根内存、哪个槽位

不同厂商对 “DIMM100” 的命名不一样,必须以 BMC 里映射为准:

  • Dell iDRAC:Hardware Logs / System Event Log(SEL)里会写清楚 DIMM A1 / B2 之类

  • HPE iLO:Integrated Management Log(IML)里会写 Processor 1 DIMM 3

  • 通用 IPMI:SEL 里会包含 Memory #DIMMCPU socket 信息


2) 判断严重性:是“真坏了”还是“接触/平台问题”

高概率是 DIMM 本体故障的信号

  • Uncorrectable / UE(不可纠正)出现一次就要重视

  • 同一个 DIMM 反复报 UE → 基本可判定需要更换

也可能是平台/接触问题

  • 近期做过搬动/加内存/维护 → 可能是 未插牢、金手指接触、槽位灰尘

  • UE 伴随“CPU 内存控制器 / Channel 错误” → 也可能是 CPU 插座/内存槽位/主板


3) 立刻做的事(避免二次故障)

  1. 如果是生产业务:先做容灾/迁移/备份(UE 随时可能再次触发宕机)

  2. 记录证据:导出 BMC 日志(SEL/IML)、系统日志(dmesg / mcelog / rasdaemon)

  3. 检查是否还在增长:同一 DIMM 是否持续出现新的 UE/CE(Correctable Error)


4) 隔离定位

按从易到难:

A. 断电重插(维护窗口)

  • 关机断电 → 取下对应 DIMM → 用无尘方式清洁 → 重新插到底(听到卡扣)

  • 同时检查:该通道其他 DIMM 是否插到位

B. 交换法(确认是“条坏”还是“槽/CPU坏”)

  • DIMM100 换到另一槽位(同规格、同通道规则下)

    • 错误跟着 DIMM 走 → DIMM 条坏

    • 错误仍在原槽位/原通道 → 槽位/主板/CPU 内存控制器问题

注意:服务器有严格的“通道/对称插法”要求,换位要按厂商人口规则做,不然会降频/报错/不开机。

C. 跑内存诊断

  • 厂商离线诊断(优先):Dell ePSA、HPE Insight Diagnostics / UEFI Diagnostics

  • OS 内:memtest86(最好离线启动跑一整夜)


5) 固件与配置

  • 升级 BIOS / BMC / 内存相关固件(有些 UE/CE 统计与阈值在固件里修复过)

  • 检查 BIOS 里与 RAS 相关选项(不同机型差异大):

    • 内存巡检/Patrol Scrub

    • ECC 模式、内存镜像/备份(有则可提高容错但损失容量)

  • 检查环境:过热、电源不稳也可能放大内存错误概率


6) 结论与处置建议

  • 出现 “Uncorrectable Error” 的 DIMM:默认建议更换。

  • 如果交换法证明是槽位/通道问题:优先检查 CPU/主板,通常走维保更换主板或 CPU(看错误落点)。



Comment