过去三十年,大多数IT组织都面临IT设施规模快速扩张,IT应用数量不断增多,IT系统的运行压力也越来大,传统的“人肉运维”早已被大家所抛弃,全部纷纷转向自动化运维的怀抱。各IT组织要么外购要么自研各种运维软件,但各种运维软件缺乏统一的规划和整合,造成各个运维软件之间相互割裂,难以发挥价值。为了改变 “系统无数套,指标千千万,业务有故障,还是人来抗(还靠命令行)”的运维窘境,越来越多的IT管理者意识到,在各种专业化细分的运维工具的基础上,还需要一种新的面向应用、面向业务的运维界面:能够从应用和业务的角度出发,针对具体的使用场景,将跨界的数据和功能与日常管理场景融合,实现信息流的场景化呈现和推送,构建IT系统的全息视图。从而使运维人员拥有“上帝视角”,可以对IT的问题响应更加迅速;对各种故障可以定位的更加准确,对具体场景中的操作动作更加敏捷。同时也让IT管理者可以全面掌控IT系统的架构蓝图、配置信息、运行状态、环境变化、演进趋势。

Tarsier-SMV(后简称SMV)借鉴军事指挥领域C4ISR系统(指挥自动化系统)的设计思路,为用户提供面向场景的综合信息分析及可视化能力,SMV以各个应用及业务架构图为核心,将“监控告警、性能展示、配置消费、内部协作、自动运维、诊断工具、关联分析、自动化”等数据和能力进行“场景化”的封装,从而为运维管理人员提供准确的、完整的、可视化的上下文信息和操作能力。

灵活的视图整合

因为IT系统的复杂性与关联性越来越强,所以各IT组织的运维活动必须横跨网络、安全、主机、应用等多个IT领域,每个领域均有自己特有的逻辑和物理架构图,但大多都在本领域内消费,很少有跨领域使用,但各领域运维又因为不了解其它系统结构,无法掌握IT系统的全景情况,降低了IT运维效率。

Tarsier-SMV具备很强的灵活视图整合能力,每个场景都可以自由整合多张不同专业的运维视图,实现运维视图组合如端到端IT管理全景视图的构建。每个场景用户均可以共享此场景内的视图。另外将不同领域不同维度的运维视图进行整合关联,结合场景实时运维信息丰富关联能力,实现在故障发生时能更加直观的呈现故障关联信息、故障根源情况,极大地提升故障解决效率。

全息的数据整合

大部分IT组织的告警、性能、配置经常是由多个系统负责,当重保、故障处理等紧急活动时,这些数据相互割裂,无法关联。SMV通过配置对象关联整合资产配置信息、性能监控指标、告警事件等运维数据,可以多维度信息面板形式综合呈现场景管理现状、运行状态,或通过运维视图组合生成的端到端全景监控视图,直观呈现运维监控实况,方便出现问题能快速定位和直接隔离处理问题应用,使日常运维更加的集中、方便、直观。

便捷的自动化操作

传统的监控与自动化操作分别由不同系统提供承担,在故障分析完毕后,无法快速调用自动化操作进行故障隔离或修复。为避免故障应急时频繁切换工具带来的延时,造成对业务的重大影响,-SMV理提供与第三方自动化工具集成的能力,通过自动化适配器调用可执行的脚本和自动化工具,可对故障设备进行状态监测(自动化诊断)、启停、切换等自动化的操控动作,快速解决故障恢复业务运行。此外还创新性的引入了运维机器人,可以通过与机器人对话来快速完成数据查询、自动化操作等工作。

方便的工具与文档整合

运维过程中经常会遇到需要获取相关应急预案或第三方运维系统数据,临时去文档库中查找或登录到第三方系统都会带来不便。SMV可以在构建的业务场景中,通过URL、API等方式快速添加与本场景相关的外部系统、预案库、知识库,从而将SMV与第三方系统或知识库进行打通,实现场景运维过程中快速数据获取、登陆、跳转等,节约故障回复时间。

一体化的作战指挥室

传统的运维平台是完成的人机互动,但实际运维过程中,往往是多人协作完成。SMV的作战指挥室不仅解决人机交互更重要可以提供人与人交互及人与机器的交互的信息共享。作战指挥室主要由以下四项功能组成:

  • 情报收集:可以提供性能、告警、日志的指定对象的收集,事态的进展情况共享
  • 协同配合:通过在线交流和协作各领域运维专家可以在指挥室内进行分析讨论、制定行动方案;
  • 战术执行:运维人员利用场景机器人调用自动化工具对故障进行快速隔离和恢复。
  • 行动复盘:场景中所有人员的分析过程、操作记录将被自动记录,用于故障回溯和知识积累。