一条告警就能让服务器“瞬间倒下”：DIMM Uncorrectable Error 到底有多危险？

“DIMM100 triggered an uncorectable error”

这句话通常来自服务器 BMC/SEL 日志（iDRAC / iLO / IPMI）或操作系统的硬件事件日志，意思是：

某个内存条（DIMM100）发生了“不可纠正”的 ECC 错误（Uncorrectable Error，UE）。
这种错误 无法靠 ECC 自动修复，往往会导致 机器宕机/重启、Kernel panic、MCE 报错，属于需要立刻处理的硬件告警级别。

下面按“先确认、再隔离、最后修复”的顺序给你一套排查/处置流程。

1) 先确认：DIMM100 到底对应哪根内存、哪个槽位

不同厂商对 “DIMM100” 的命名不一样，必须以 BMC 里映射为准：

Dell iDRAC：Hardware Logs / System Event Log（SEL）里会写清楚 DIMM A1 / B2 之类
HPE iLO：Integrated Management Log（IML）里会写 Processor 1 DIMM 3 等
通用 IPMI：SEL 里会包含 Memory #、DIMM、CPU socket 信息

2) 判断严重性：是“真坏了”还是“接触/平台问题”

高概率是 DIMM 本体故障的信号

Uncorrectable / UE（不可纠正）出现一次就要重视
同一个 DIMM 反复报 UE → 基本可判定需要更换

也可能是平台/接触问题

近期做过搬动/加内存/维护 → 可能是 未插牢、金手指接触、槽位灰尘
UE 伴随“CPU 内存控制器 / Channel 错误” → 也可能是 CPU 插座/内存槽位/主板

3) 立刻做的事（避免二次故障）

如果是生产业务：先做容灾/迁移/备份（UE 随时可能再次触发宕机）
记录证据：导出 BMC 日志（SEL/IML）、系统日志（dmesg / mcelog / rasdaemon）
检查是否还在增长：同一 DIMM 是否持续出现新的 UE/CE（Correctable Error）

4) 隔离定位

按从易到难：

A. 断电重插（维护窗口）

关机断电 → 取下对应 DIMM → 用无尘方式清洁 → 重新插到底（听到卡扣）
同时检查：该通道其他 DIMM 是否插到位

B. 交换法（确认是“条坏”还是“槽/CPU坏”）

把 DIMM100 换到另一槽位（同规格、同通道规则下）
- 错误跟着 DIMM 走 → DIMM 条坏
- 错误仍在原槽位/原通道 → 槽位/主板/CPU 内存控制器问题

注意：服务器有严格的“通道/对称插法”要求，换位要按厂商人口规则做，不然会降频/报错/不开机。

C. 跑内存诊断

厂商离线诊断（优先）：Dell ePSA、HPE Insight Diagnostics / UEFI Diagnostics
OS 内：memtest86（最好离线启动跑一整夜）

5) 固件与配置

升级 BIOS / BMC / 内存相关固件（有些 UE/CE 统计与阈值在固件里修复过）
检查 BIOS 里与 RAS 相关选项（不同机型差异大）：
- 内存巡检/Patrol Scrub
- ECC 模式、内存镜像/备份（有则可提高容错但损失容量）
检查环境：过热、电源不稳也可能放大内存错误概率

6) 结论与处置建议

出现 “Uncorrectable Error” 的 DIMM：默认建议更换。
如果交换法证明是槽位/通道问题：优先检查 CPU/主板，通常走维保更换主板或 CPU（看错误落点）。

Menu

Share

一条告警就能让服务器“瞬间倒下”：DIMM Uncorrectable Error 到底有多危险？

1) 先确认：DIMM100 到底对应哪根内存、哪个槽位

2) 判断严重性：是“真坏了”还是“接触/平台问题”

高概率是 DIMM 本体故障的信号

也可能是平台/接触问题

3) 立刻做的事（避免二次故障）

4) 隔离定位

A. 断电重插（维护窗口）

B. 交换法（确认是“条坏”还是“槽/CPU坏”）

C. 跑内存诊断

5) 固件与配置

6) 结论与处置建议

Comment

《华为手机和平板升级后满屏“卓”字？卓易通到底是什么，一篇给你讲明白》

安卓上最好用的漫画阅读器：Kuro Reader 到底强在哪？

【被误解的名言】“亏妻者百财不入”，你只看到了半句话

华硕RT-AX82U下插件Merlin Clash 2使用教程

【数据备份解密】什么是 PMFX 格式？一文看懂 DiskGenius 导出的整机系统镜像

《Windows分屏终极指南：横屏、竖屏、副屏的全场景快捷操作全解析》

【被误解的名言】“不听老人言，吃亏在眼前”其实只对了一半

从入门到精通：蓝牙协议全解析—— 带宽、协议差异与设备支持能力详解

家用 NAS 该选 SMB 还是 NFS？一文讲透协议差异，少踩坑、多看片

麒麟 V10 SP3 高级服务器操作系统防火墙配置详解——从 firewalld 到策略落地的最佳实践