Skip to content

ITSM事件管理流程规范

1. 流程目标

本规范旨在提供一个清晰、标准化的ITSM事件管理流程框架,确保事件能够被快速识别、记录、处理和解决,同时为流程设计者提供明确的指导,便于用户理解和落地执行。

2. 适用范围

本流程适用于所有与IT基础架构和业务相关的事件,包括用户报告的故障、咨询、服务请求以及监控系统发现的异常。

3. 流程设计原则

  • 简洁性:流程设计应尽量简洁明了,避免不必要的复杂性。
  • 灵活性:流程应具备一定的灵活性,以适应不同的业务场景。
  • 用户友好性:流程设计应以用户为中心,确保易于理解和操作。
  • 可扩展性:流程设计应考虑未来的扩展需求,避免因业务增长或变化而频繁修改。
  • 可度量性:流程设计应包含关键绩效指标(KPI),以便对流程的执行情况进行量化评估。

4. 角色与职责

事件管理流程涉及多个角色,每个角色的职责如下:

4.1 服务台人员

  • 职责
    • 接收用户报告的事件和服务请求。
    • 记录事件信息并进行初步分类和优先级划分。
    • 尝试快速解决事件,或升级至二线支持。
    • 跟踪事件处理进度,确保事件闭环。
    • 与用户确认事件解决情况并关闭事件。

4.2 一线支持人员

  • 职责
    • 处理服务台升级的事件,尝试快速解决。
    • 收集事件相关信息,进行初步诊断。
    • 若无法解决,升级至二线支持。

4.3 二线支持人员

  • 职责
    • 对事件进行深入调查和诊断。
    • 提出解决方案并实施,必要时升级至三线支持。
    • 负责事件的记录和文档更新。

4.4 三线支持人员

  • 职责
    • 处理复杂事件,提供技术支持。
    • 协调外部供应商或资源。
    • 提出变更请求以解决事件。

4.5 事件经理

  • 职责
    • 监督事件管理流程的执行。
    • 处理重大事件和升级事件。
    • 定期审查事件管理报告。

5. 流程描述

事件管理流程分为三个主要阶段:事件识别与记录、事件调查与诊断、事件解决与关闭。

5.1 事件识别与记录

  • 事件来源:用户报告、监控系统告警。
  • 记录内容:事件编号、描述、分类、优先级、发现时间、报告人信息。
  • 初步处理:服务台对事件进行分类和优先级划分,尝试快速解决。

5.2 事件调查与诊断

  • 技术支持:一线或二线支持人员对事件进行调查和诊断。
  • 升级机制:若事件无法解决,升级至二线或三线支持。
  • 变更申请:对于需要系统或配置变更的事件,提交变更请求。

5.3 事件解决与关闭

  • 解决方案实施:二线或三线支持人员实施解决方案。
  • 用户确认:服务台与用户确认事件是否解决。
  • 记录更新:事件解决后,记录解决方案、处理过程和用户反馈。
  • 事件关闭:服务台关闭事件记录,确保闭环。

6. 流程图及角色对应关系

以下是事件管理流程图,并明确标注了每个角色与节点的对应关系:

mermaid
graph TD
    A[事件识别与记录] --> B[事件调查与诊断]
    B --> C[事件解决与关闭]
    A --> D[记录事件信息]
    D --> E[分类与优先级划分]
    E --> F[初步支持(服务台)]
    F -->|可解决| G[解决事件(服务台)]
    F -->|需升级| H[二线支持]
    H -->|可解决| G
    H -->|需升级| I[三线支持]
    I -->|可解决| G
    I -->|需变更| J[变更申请(三线支持)]
    J --> K[变更实施(三线支持)]
    K --> G
    G --> L[记录解决方案(服务台)]
    L --> C

6.1 角色与节点对应关系

节点角色职责
A(事件识别与记录)服务台接收事件,记录信息,分类和优先级划分
D(记录事件信息)服务台记录事件的详细信息
E(分类与优先级划分)服务台对事件进行分类和优先级划分
F(初步支持)服务台尝试快速解决事件,或升级至二线支持
G(解决事件)服务台解决事件并记录解决方案
H(二线支持)二线支持人员进行深入调查和诊断,尝试解决事件,或升级至三线支持
I(三线支持)三线支持人员处理复杂事件,提出变更请求
J(变更申请)三线支持人员提交变更请求以解决事件
K(变更实施)三线支持人员实施变更以解决事件
L(记录解决方案)服务台记录解决方案,更新事件状态

7. 节点表单设计

以下是每个关键节点的表单设计,包含字段名称、是否必填、字段类型和描述,确保信息记录的完整性和一致性。

7.1 事件识别与记录表单

字段名称是否必填字段类型描述
事件编号字符串(自动生成)系统自动生成的唯一编号
事件描述富文本用户或监控系统提供的事件详细信息
事件分类单选框故障、告警、咨询、服务请求等
优先级单选框紧急、高、中、低
发现时间日期/时间事件被发现的时间
报告人字符串提交事件的用户或系统名称
联系方式字符串报告人的联系方式

7.2 初步支持表单

字段名称是否必填字段类型描述
事件编号字符串关联的事件编号
支持人员字符串服务台人员姓名
初步诊断富文本事件的初步诊断结果
解决措施富文本尝试的解决措施
是否解决单选框是否解决(是/否)
升级原因富文本若未解决,需说明升级原因

7.3 二线支持表单

字段名称是否必填字段类型描述
事件编号字符串关联的事件编号
支持人员字符串二线支持人员姓名
详细诊断富文本事件的详细诊断结果
解决方案富文本提出的解决方案
是否解决单选框是否解决(是/否)
升级原因富文本若未解决,需说明升级原因

7.4 三线支持表单

字段名称是否必填字段类型描述
事件编号字符串关联的事件编号
支持人员字符串三线支持人员姓名
详细诊断富文本事件的详细诊断结果
解决方案富文本提出的解决方案
是否解决单选框是否解决(是/否)
变更请求单选框是否需要变更(是/否)

7.5 变更申请表单

字段名称是否必填字段类型描述
变更编号字符串(自动生成)系统自动生成的唯一编号
事件编号字符串关联的事件编号
变更描述富文本变更的具体内容
风险评估富文本变更可能带来的风险
回退计划富文本若变更失败的回退方案

7.6 事件解决与关闭表单

字段名称是否必填字段类型描述
事件编号字符串关联的事件编号
解决时间日期/时间事件解决的时间
解决方案富文本事件的解决方案
用户反馈富文本用户对事件处理的满意度评价
关闭时间日期/时间事件关闭的时间

8. 关键绩效指标(KPI)

  • 事件总数与关闭率:衡量事件管理的整体效率。
  • 平均响应时间与解决时间:衡量事件处理的及时性。
  • 用户满意度:衡量用户对事件处理的满意度。
  • 一线解决率与二线解决率:衡量不同层级支持团队的解决能力。

9. 流程文档与培训

  • 详细文档:提供完整的流程文档,包括流程图、表单设计、角色职责等,确保用户能够快速上手。
  • 培训材料:设计配套的培训材料和操作手册,帮助用户理解和掌握流程。
  • 在线支持:提供在线帮助和常见问题解答(FAQ),以便用户在执行流程时能够快速解决问题。

10. 流程的验证与测试

  • 模拟运行:在流程设计完成后,进行模拟运行,以验证流程的可行性和有效性。
  • 用户反馈:邀请目标用户参与流程测试,收集反馈并优化流程。
  • 持续改进:根据实际运行情况,定期对流程进行评估和优化,确保其始终符合业务需求。

11. 补充信息

在IT服务管理(ITSM)中,事件(Incident) 是一个非常重要的概念,它通常指的是任何可能或已经对IT服务的正常运行造成影响的情况。以下是事件的定义以及如何判断哪些情况应该提交事件流程的详细说明:

11.1 事件的定义

事件是对IT服务的正常运行、性能或安全性产生影响的任何情况,通常包括但不限于以下几种类型:

  1. 故障(Failure)
    • 系统、设备或软件出现故障,导致服务中断或性能下降。例如,服务器宕机、网络中断、应用程序崩溃等。
  2. 告警(Alert)
    • 监控系统检测到的潜在问题或异常情况,可能预示着即将发生的服务中断或性能问题。例如,磁盘空间不足、CPU使用率过高、安全漏洞等。
  3. 用户报告的问题(User-reported issue)
    • 用户在使用IT服务过程中遇到的问题或困难,包括功能无法正常使用、数据丢失、性能缓慢等。
  4. 服务请求(Service request)
    • 用户提出的需要IT支持的特定需求,例如安装软件、配置设备、提供技术支持等。
  5. 安全事件(Security incident)
    • 任何可能对IT系统的安全性造成威胁的情况,例如网络攻击、数据泄露、恶意软件感染等。

11.2 判断哪些情况应该提交事件流程

判断一个情况是否需要提交事件流程,主要基于以下标准:

11.2.1 是否影响了IT服务的正常运行

  • 如果某个情况导致了IT服务的中断、性能下降或功能异常,那么它应该被记录为事件。例如:
    • 服务器无法访问。
    • 网络连接中断。
    • 应用程序无法启动或运行缓慢。
    • 数据丢失或无法访问。

11.2.2 是否对业务产生了影响

  • 事件的严重程度不仅取决于技术问题本身,还取决于它对业务的影响。如果一个情况对业务的正常运行产生了负面影响,即使技术问题本身并不严重,也应该提交事件流程。例如:
    • 一个关键业务系统的功能异常导致业务流程中断。
    • 一个小型故障影响了大量用户的正常工作。

11.2.3 是否需要IT支持团队介入

  • 如果一个情况超出了用户自身的解决能力,需要IT支持团队进行诊断、修复或提供帮助,那么它应该被记录为事件。例如:
    • 用户无法自行解决的软件安装问题。
    • 需要系统管理员进行权限调整或配置变更的情况。
    • 需要技术支持人员进行故障排查的硬件问题。

11.2.4 是否需要记录和跟踪

  • 即使某些情况可能不需要立即的IT支持介入,但如果它们需要被记录和跟踪以便后续分析或改进,也应该提交事件流程。例如:
    • 用户报告的偶尔出现的性能问题,虽然当前没有严重影响业务,但需要记录以便后续分析。
    • 监控系统检测到的潜在风险,需要记录并跟踪其发展趋势。

11.2.5 是否涉及安全问题

  • 任何可能对IT系统的安全性造成威胁的情况都应该立即提交事件流程,以便采取紧急措施。例如:
    • 发现未经授权的访问尝试。
    • 检测到恶意软件或病毒。
    • 数据泄露或安全漏洞的报告。

11.3 举例说明

以下是一些具体的例子,帮助理解哪些情况应该提交事件流程:

  • 服务器宕机:这是一个典型的事件,因为它直接导致了服务中断,需要立即记录并启动事件处理流程。
  • 用户报告无法访问某个关键业务系统:这可能是一个故障或安全问题,需要记录并由IT支持团队进行诊断和解决。
  • 监控系统告警显示网络流量异常:这可能是一个安全事件或性能问题,需要记录并进一步调查。
  • 用户请求安装新的软件:这是一个服务请求,虽然它可能不会立即影响服务的正常运行,但需要IT支持团队介入,因此也应该提交事件流程。
  • 用户报告偶尔出现的软件卡顿:虽然当前可能没有严重影响业务,但为了后续分析和改进,也应该记录为事件。

总之,事件的定义和判断标准是确保IT服务管理高效运行的基础。通过明确哪些情况需要提交事件流程,可以确保所有相关问题都能得到及时、有效的处理,同时也有助于对IT服务的性能和安全性进行持续监控和改进。