IT环境的复杂度和规模不断扩大、变更频率日益频繁,给IT系统的可用性管理带来挑战。为了更好的掌握系统的运行状态,运维团队引入了大量专业监控工具。然而,监控数据量的陡然增大导致重要告警被淹没,碎片化的数据和频繁的工具切换增加了一线运维人员分析跨专业故障的难度。如何充分发挥监控数据的价值,在海量事件告警中快速定界和定位故障,是当前监控事件管理最迫切的问题。

Tarsier-EMV作为集中事件处理平台能够进一步释放监控数据的价值,使运维人员能够更快速的识别故障、更容易的理解故障。

高效的事件整合

各专业监控工具的独立部署带来了大量碎片化的数据和频繁的工具切换,降低了故障分析和处理效率。为此,Tarsier-EVM提供了丰富的集成适配器,能够高效汇聚各专业监控工具的告警事件,并将原始告警事件数据转换成统一、标准的数据模型,形成可读性更强的全局监控视图,帮助运维团队快速了解跨专业故障情况。

面向业务的事件定级

在当今分布式、高可用IT环境中,单机告警并不一定导致业务影响,因此传统面向单机的告警定级策略难以适用。运维团队的有限资源应优先处理业务感知类问题,而不是在大量单机告警中疲于奔命。Tarsier-EMV参考业界最佳实践,提供了面向业务影响度和业务重要性的综合定级策略,帮助IT团队更准确的识别重要故障,合理的安排处理优先级。

面向场景的事件归集

IT环境中各组件相互影响,底层组件故障常常引发大量关联告警,重要信息被淹没,导致运维团队难以快速识别故障域。Tarsier-EMV基于场景对告警事件进行分组归集,将大量原始告警归集成少量“故障场景”,从而降低告警噪音,提升故障域的识别效率。

多维的事件丰富

原始告警信息不足,缺乏故障处理所需的上下文信息,如:影响的业务系统、业务联系人、联系方式、服务时间窗、重要级别、集群模式、数据连接方式、近期变更记录、处理预案等,导致运维团队在进行故障通知和故障诊断的过程中,需查阅大量外部运维工具才能完成上下文信息拼图,严重耽误了故障处理进度。Tarsier-EMV通过集成CMDB、ITSM、应急指挥等运维工具和系统,将故障处理所需的多维度运维信息自动丰富到事件数据中,为运维团队提供一站式信息服务,提升故障处理效率。

可视化的事件分析

传统的告警事件以表格形式呈现,运维团队难以直观感知告警事件发生的先后顺序和相互依赖关系。Tarsier-EMV提供可视化的故障诊断能力,通过告警时序图,帮助运维团队从告警发生的先后顺序判断故障根因。通过拓扑架构图,帮助运维团队从故障组件的相互依赖关系判断故障根因。