
摘要
ITSM(IT Service Management)是一套以“服务为核心”的IT运维管理体系,强调通过标准化流程、制度化管理和工具平台,实现IT运维的可控、可审计与可持续优化。本文从ITSM核心概念、ITIL框架、关键流程(Incident/Change/Problem)、指标体系(SLA/MTTR/RTO)及在央企涉密环境中的落地实践进行系统解析,帮助读者从“被动运维”迈向“体系化服务管理”。

一、ITSM是什么?
1.1 定义
ITSM(IT Service Management)是指:
通过一系列流程、制度、工具和人员协同机制,对IT服务进行全生命周期管理,以保障IT服务持续、稳定、高效地支撑业务运行。

1.2 本质理解
很多人把ITSM理解为“运维管理工具”,这是错误的。
ITSM的本质是:
把“技术运维”升级为“服务交付”

1.3 三个关键转变
1.4 举个典型对比
传统模式
用户:OA打不开
运维:重启服务
结束
问题:
没记录
没复盘
下次还会发生
ITSM模式
生成事件编号:INC-2026-03-001
记录时间线
分析根因
输出报告
纳入问题库
结果:
可追溯
可分析
可优化

二、ITSM的理论基础:ITIL框架
2.1 ITIL是什么?
ITIL framework
ITIL(Information Technology Infrastructure Library)是全球最主流的ITSM最佳实践框架。

2.2 ITIL核心思想
用标准化流程管理IT服务生命周期


2.3 ITIL核心模块详解
2.3.1 Incident(事件管理)
定义:
已发生的服务中断或异常
目标:
尽快恢复服务(不是找原因)
示例:
服务器宕机
网络中断
应用不可访问
2.3.2 Problem(问题管理)
定义:
导致事件发生的根本原因
目标:
避免问题再次发生
示例:
内存故障 → 根因:硬件老化
2.3.3 Change(变更管理)
定义:
对系统进行任何修改的行为
目标:
控制风险
示例:
修改路由
升级系统
更换硬件
2.3.4 Configuration(配置管理 / CMDB)
定义:
记录所有IT资产及其关系
示例:
服务器
交换机
应用系统
2.3.5 Request(服务请求)
定义:
用户提出的需求
示例:
开账号
授权

三、ITSM体系结构



3.1 五大核心组成
1️⃣ 服务台(Service Desk)
单一入口
统一受理
2️⃣ 流程体系
Incident
Change
Problem
3️⃣ CMDB(配置管理库)
ITSM的“数据库核心”
4️⃣ 工具平台
工单系统
自动化平台
5️⃣ 指标体系
SLA
MTTR
四、ITSM关键指标体系

4.1 MTTR(平均恢复时间)
衡量:
修复速度
4.2 MTBF(平均无故障时间)
衡量:
稳定性
4.3 SLA(服务等级协议)
衡量:
服务承诺



4.4 RTO / RPO(数据中心核心指标)
RTO:恢复时间目标
RPO:数据丢失容忍
4.5 指标之间的关系
本质:
ITSM = 用指标驱动运维优化
