监控是实现IT系统稳定、可靠运营最不可缺少的部分。IT运维团队依靠监控数据对系统的运行状态做出合理判断。然而,分析监控数据是一项非常有挑战性的工作:

  • 监控数据量巨大,一个中等规模以上的数据中心,全量监控指标可能达到百万级,而传统监控工具对海量监控数据进行检索、分析和可视化呈现并不容易;
  • 监控数据分散在各专业领域的监控工具中,无法共享,从业务视角对跨领域监控指标进行关联分析非常困难;
  • 基于多指标历史数据的汇总计算和可视化能力较弱,难以应对分布式环境下以集群为单位的整体监控需求。

Tarsier-PMV(后简称PMV)能够高效接入各个专业监控数据,为用户提供统一的监控数据查询、分析、可视和告警管理能力,能快速、方便的实现跨领域指标关联分析,帮助用户更快的发现系统异常,提升性能容量分析能力和故障处理效率。

高效的存储和查询

针对监控数据实时性高、数据量大、查询频繁的特点,PMV以时序链(Time-series)形式将监控数据先存储在内存数据库中,然后再定时保存到磁盘上,从而实现监控数据的高并发写入、高数据压缩率和高性能的数据查询能力。

多维度的指标模型

基于标签的多维度指标模型,是新一代监控系统的关键特性。在PMV中,每个时间点的监控数据由四要素构成:指标名、指标值、时间和标签组。标签组中的每个标签代表一个统计维度,用户能够通过标签对监控指标进行高效的检索和计算。

灵活的数据丰富能力

传统的监控数据并不包含对象的配置信息和业务数据,在IT环境日益复杂的今天,仅仅基于原始的监控数据并不能有效的分析和定位故障。PMV提供基于CMDB的数据丰富能力,能将配置数据(地域、楼层、设备类型、角色、操作系统、管理员等)和业务数据(如所属业务系统、业务组件、群集等)丰富到监控数据中。从而IT运维团队从业务视角解读监控数据,提升故障预测和定位能力。

强大的汇聚计算能力

对于分布式高可用系统来说,单机故障不会影响系统整体运作,因此,针对单机的告警策略会产生大量低级别甚至无效告警,反而淹没重要告警。在分布式环境下,以“集群”为单位的告警策略会日益重要。PMV支持以“集群”为单位的告警策略,能够对多对象的多个监控指标进行汇聚计算,实现针对平均值或百分位数分布的告警阈值,降低无效告警,提升告警准确率。

自服务的监控仪表盘

PMV提供了丰富的仪表盘模板供用户选择,包括时间序列、当前值、热力图、分布图等等。用户可以方便的创建自己的仪表盘,也可以在仪表盘中灵活的调整指标呈现样式。

场景化的告警服务

传统监控工具,告警策略一般由监控部门统一制定。虽然统一的告警策略能够提升监控标准化水平,但却不一定满足所有场景下的监控需求。同一个管理对象的监控指标,在不同的时期或不同的管理视角下很可能有不同的告警阈值或通知策略。PMV能够为用户提供场景化的告警服务,让用户能够根据自己的管理需求灵活的设置告警策略。