“DIMM100 triggered an uncorectable error”
这句话通常来自服务器 BMC/SEL 日志(iDRAC / iLO / IPMI)或操作系统的硬件事件日志,意思是:
某个内存条(DIMM100)发生了“不可纠正”的 ECC 错误(Uncorrectable Error,UE)。
这种错误 无法靠 ECC 自动修复,往往会导致 机器宕机/重启、Kernel panic、MCE 报错,属于需要立刻处理的硬件告警级别。
下面按“先确认、再隔离、最后修复”的顺序给你一套排查/处置流程。


1) 先确认:DIMM100 到底对应哪根内存、哪个槽位
不同厂商对 “DIMM100” 的命名不一样,必须以 BMC 里映射为准:
Dell iDRAC:Hardware Logs / System Event Log(SEL)里会写清楚
DIMM A1 / B2之类HPE iLO:Integrated Management Log(IML)里会写
Processor 1 DIMM 3等通用 IPMI:SEL 里会包含
Memory #、DIMM、CPU socket信息
2) 判断严重性:是“真坏了”还是“接触/平台问题”
高概率是 DIMM 本体故障的信号
Uncorrectable / UE(不可纠正)出现一次就要重视
同一个 DIMM 反复报 UE → 基本可判定需要更换
也可能是平台/接触问题
近期做过搬动/加内存/维护 → 可能是 未插牢、金手指接触、槽位灰尘
UE 伴随“CPU 内存控制器 / Channel 错误” → 也可能是 CPU 插座/内存槽位/主板
3) 立刻做的事(避免二次故障)
如果是生产业务:先做容灾/迁移/备份(UE 随时可能再次触发宕机)
记录证据:导出 BMC 日志(SEL/IML)、系统日志(dmesg / mcelog / rasdaemon)
检查是否还在增长:同一 DIMM 是否持续出现新的 UE/CE(Correctable Error)
4) 隔离定位
按从易到难:
A. 断电重插(维护窗口)
关机断电 → 取下对应 DIMM → 用无尘方式清洁 → 重新插到底(听到卡扣)
同时检查:该通道其他 DIMM 是否插到位
B. 交换法(确认是“条坏”还是“槽/CPU坏”)
把 DIMM100 换到另一槽位(同规格、同通道规则下)
错误跟着 DIMM 走 → DIMM 条坏
错误仍在原槽位/原通道 → 槽位/主板/CPU 内存控制器问题
注意:服务器有严格的“通道/对称插法”要求,换位要按厂商人口规则做,不然会降频/报错/不开机。
C. 跑内存诊断
厂商离线诊断(优先):Dell ePSA、HPE Insight Diagnostics / UEFI Diagnostics
OS 内:
memtest86(最好离线启动跑一整夜)
5) 固件与配置
升级 BIOS / BMC / 内存相关固件(有些 UE/CE 统计与阈值在固件里修复过)
检查 BIOS 里与 RAS 相关选项(不同机型差异大):
内存巡检/Patrol Scrub
ECC 模式、内存镜像/备份(有则可提高容错但损失容量)
检查环境:过热、电源不稳也可能放大内存错误概率
6) 结论与处置建议
出现 “Uncorrectable Error” 的 DIMM:默认建议更换。
如果交换法证明是槽位/通道问题:优先检查 CPU/主板,通常走维保更换主板或 CPU(看错误落点)。