加入收藏 | 设为首页 | 会员中心 | 我要投稿 宁德站长网 (https://www.0593zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

企业有效解决故障 可以定义告警事件优先级

发布时间:2021-07-08 15:01:00 所属栏目:大数据 来源:互联网
导读:企业的 IT 管理部门就是为企业提供 IT 后勤服务,而IT运维软件又是为企业的 IT 管理部门提供后勤服务的,而这恰恰是很多未能推进 IT 运维监控工作的企业最容易忽视的地方。这些企业依赖一些经验丰富的排错专家,他们的技能是能够对在复杂环境中可能出现的性

  企业的 IT 管理部门就是为企业提供 IT 后勤服务,而IT运维软件又是为企业的 IT 管理部门提供后勤服务的,而这恰恰是很多未能推进 IT 运维监控工作的企业最容易忽视的地方。这些企业依赖一些经验丰富的“排错专家”,他们的技能是能够对在复杂环境中可能出现的性能和吞吐问题进行事先估计,并进行恰当的决策来避免这些问题。


  但并不是每个人都是“佩特罗夫”,在我们看来,成功的IT运维部门所具有的最有价值的技能是将IT系统各个部分连接起来的能力。但是,由于传统的,手工作坊一样的管理效率不但低下,并且管理人员由于无法掌握全网的网络设备运行情况,当网络发生故障时也无法定位根源(即使我们从“影响度+紧急度==优先级”的公式计算中得到了结果)。同时,我们还应该清楚,不同的优先级,所处理得流程也是不一样的。但是由于一些工程师的维护职责不是很清楚,每个人都大概知道自己该做什么,但是某个具体事情到底该谁负责,却没有明细流程。林林总总,这些都可能导致看似非致命的故障,最终则是全网范围的网络中断,或者服务平台灾难性的事件发生。


  而一套优秀的IT运维系统恰好可为优先级的管理奠定了预警和管理的技术。为了能够将IT告警事件区分出优先级,我们唯一的办法是将分散或看起来不相关的组件(问题)联系起来,以形成一个完整的系统。因为,只有从完整的监控系统中才能派生出“有意义的(可执行的)”的故障恢复流程。以北塔软件BTIM为例,在操作界面中的对于图标使用 “红、棕、黄、绿、蓝”不同的颜色,这代表5个告警等级,此告警等级可以代表不同的运维等级,它们是:紧急、高级、中级、低级、提示级。根据优先级的不同,对应的处理人员不同,处理流程也不同,响应的时间也是不同的。例如:SLA优先级较高的系统出现问题,IT运维部门需要在1小时之内解决问题,或者启用备用系统。而相对级别较低的服务便可根据SLA协议约定的范围内,如4小时、8小时内完成修复。


  在北塔BTIM综合运维系统中,可以把IT运维“那些事”(包括人员、资源、突发故障)分成不同级别和不同运维操作,以便有效的配置运维人力资源。正是因为监控系统与SLA协议的匹配,通过管理上对于不同故障等级采取不同的监管策略,才能实现了人力、财力成本投入不增加的情况下,起到高效管理的收益。


  流程优化与人力优化是同时进行的,实现IT故障分级处理也是一次对IT运维人力资源配置的优化过程。例如,明确故障分级处理流程,便同时界定了运维人员对于故障的响应时间、职责、权限、义务和绩效考核标准等等。事实上许多企业的实践和北塔软件的成功实施案例也证明,这样可以减少IT运维操作的随意性和混乱性,并能大大提高运维中的人力资源效率。

(编辑:宁德站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读