技术开发 频道

Tivoli实现IT基础架构管理

【IT168 专稿】    如今,信息技术的发展已经进入到一个崭新的阶段,无处不在的信息技术将以前只能想像的事情变成了现实。全球化这一新趋势无疑将对现有的商业模式、组织结构和业务流程产生巨大影响,竞争压力和日新月异的信息技术根本地改变了企业的运行节奏。公司业务的全球化使得我们必须提供24×7的可用性,企业不得不以越来越快的速度应对各种突发事件。IT系统的任何一个环节出现问题,都可能直接影响到公司的业务顺利进行。异构存储、网络和硬件支撑着“信息孤岛”(应用程序与数据相互孤立或者条块分割),导致IT环境的利用和管理都过度复杂,IT维护和管理成本也在与日俱增,IT基础设施的健康性和可管理性越来越让人担忧。
    如何有效管理并改善公司的IT系统,使之与企业的快速发展保持同步,以实现数据资源整合、主动应对需求变化,以及在全球化趋势面前随需应变,是当今企业领导者不得不面对的重重挑战。IBM Tivoli管理软件为此打造了一整套解决方案。

突破传统局限 打造新一代IT管理系统

    我们来看一个企业的IT管理典型性需求分析。企业业务系统的正常运行依赖于底层的IT基础架构,这包括网络系统、存储系统、资源设备(空调、消防和UPS等)、服务器硬件、操作系统、数据库、中间件及应用系统的支撑(如下图所示)。

    当我们审视企业内部用来保持其IT基础架构正常运行的管理工具时,通常看到的都是一些不完整的或者功能交叉的多套监测工具。我们很少能够看到企业通过集成的工具产品组合来对IT基础架构进行日常管理。购买管理产品的决定通常都是从“这种工具能够解决我们目前所面临的特定问题”出发的。这种通过“搭积木”的方式购买产品和工具的方法通常导致数据从一个管理产品到另一个产品的集成或者共享变得十分困难,原因是每个独立的管理工具中所采用的专有数据接口缺少对其他需要使用该信息的产品和流程的理解。随着企业新的业务系统的不断推出,通过陆续采购的IT管理工具搭建的IT管理系统会暴露出许多问题,例如管理模式不统一、管理工具难以整合、管理流程效率低、规范性弱、信息的割裂及知识共享不够等。
    为了解决集成性和数据共享的难题,国际上一些主流的系统管理厂商先后推出了基于面向对象技术的Framework架构管理体系,承诺在一个平台上(通常来自单一厂家,或者与Framework规范兼容的第三方)实现网络管理的所有主要功能,包括告警管理、配置管理、业务激活、性能管理、流量规划和拓扑自动发现等。这种“紧耦合”的架构方式可以说是反映了传统网管界在当时对IT管理发展的预期和展望,放在当时历史条件下并不为过,毕竟传统的、技术型的IT部门所面临的支撑新业务的压力与今天的同行相比不可同日而语。
    时至今日,面对急剧变化的世界,基于Framework思想所开发的网管系统在面对新需求时已力不从心,其各个子模块的耦合度太过紧密,彼此相互依赖、互相牵制,无法依据业务功能进行纵向切割。由于Framework的种种局限,业界已经逐渐放弃这种思路,例如IBM已经在Tivoli的产品线中淡化采用Framework的网管产品,转而采用面向SOA架构的新的产品线。
    SOA(Service-Oriented Architecture)解决的正是Framework存在的问题。SOA的核心思想是松耦合、可重用,以及快速组装的能力,即对网管系统各个模块进行功能分解,各个模块之间相互独立,既可以单独工作也可以相互配合,快速开发新的业务流程或网管功能。比如,告警管理系统既可以独立工作,也可以和配置管理系统/资源管理系统配合工作。这样带来的好处是:首先,解除了各个系统之间的互相牵制,保证系统快速上线投入服务;其次,不会将用户对未来系统的采购绑定在某一个厂家上,即SOA搭建系统的原则是提倡产品选型的“非常好的组合”,以及实施上的“非常好的实践”。

Tivoli集中监控管理系统架构

    IBM的整体监控解决方案包含三个层次:集中监控管理层、事件相关处理层和业务服务管理层。同时,这个整体监控体系将包含主机、存储、网络、数据库、操作系统、中间件及应用系统管理,把对企业IT基础架构的管理有机地整合到整个业务系统的管理之中。
    第一个层次(集中监控管理层):这一层的主要功能是监控网络、操作系统、数据库、ERP和其它应用系统的健康状况,使用的产品是IBM Tivoli Monitoring监控软件家族、IBM Tivoli Composite Application Manager及Tivoli Netcool网络管理产品,提供基于非常好的经验值的监控场景,大大减少了对用户使用的复杂度,真正做到了开箱即用。
    第二个层次(事件相关处理层):事件相关处理是专门针对建立企业控制中心面临的难题:问题根源分析。当企业控制中心建立后,每天超过数百万条报警事件的分析是管理员面对的难题,报警事件包括网络、操作系统、数据库和应用的告警和通知事件,通过简单的过滤处理很难找到问题的根源,必须使用复杂的相关分析引擎进行处理,才能将每天几十万条报警事件转化为几十条明确的根源故障报警,管理才能变的有效。IBM Tivoli Omnibus可以提供上述功能。作为优秀事件处理平台,IBM Tivoli Omnibus依托独有的内存数据库技术,处理效率高,其事件处理量>500条/秒,不会形成事件瓶颈,事件采集/处理/呈现速度快。同时,其高效的处理机制保障系统管理的快速预警能力,方便管理员及时了解网络健康状况。
    第三个层次(业务影响管理):业务服务管理是基于监控和关联分析的前提,展现IT资源对业务的影响,并与业务流程关联,与业务优先级关联,实现业务服务水平的管理。该层使用的软件包括IBM Tivoli Enterprise Portal、IBM Tivoli Business Service Manager和IBM Tivoli Service Level Advisor。

Tivoli集中监控管理系统功能特点

    Tivoli管理软件通过Tivoli Enterpirse Portal(TEP)为企业用户提供了一个图形化、可定制、统一的运维管理平台,通过它实现对IT基础架构性能和告警数据的直接监控与展示(主机、操作系统、数据库、中间件和应用等),并通过开发实现对被监控对象的充分监控。TEP还可根据需要,集成其他监控平台的事件和性能信息(网管、存储监控和机房监控等);并通过统一的系统监控平台实现对用户环境的整体运行状态的监控管理。
  
1. 多层次的视图展示
    系统监控项目的效果取决两个方面:一方面是监控的全面、深度和准确性;另一方面是展示效果,直观、准确地体现各层面的系统和业务运行状态。基于TEP的高可视化用户界面和集成商的开发定制,大大增强了监控系统的展示效果和灵活性,并形成了相应的展示标准。

    根据企业的业务特点和管理习惯,可将展示视图分成根视图、一级视图、二级视图和三级视图,分别展示不同管理层次和范围的系统运行状态(如下图所示)。

    根视图也称为系统整体运行状态监控视图(上角左一)。在这张视图上,管理员可以清晰地看到企业网中所有被监控对象的整体健康状态,当某个被管对象出现性能问题或告警时,将会有红色或黄色的告警提示符出现。通过这张视图管理员可以迅速发现和定位问题。
    一级视图也称为业务总体视图(上角右一)。在这张视图上,管理员可以清晰地看到企业网中所有业务系统的整体健康状态,当某个业务系统内的监控对象出现性能问题或告警时,将会有红色或黄色的告警提示符出现。通过这张视图管理员可以快速定位和判断业务系统总体健康状态。
    二级视图也称为特定业务或设备类型监控视图(下角右一)。在这张视图上,管理员可以清晰地看到企业网中某个特定业务的整体健康状态,当某个业务系统内的监控对象出现性能问题或告警时,将会有红色或黄色的告警提示符出现。通过这张视图管理员可以快速定位和判断该业务中的哪个被管对象出现问题或故障。
    三级视图也称为资源监控视图(下角左一)。在这张视图上,管理员可以清晰地看到企业网中特定被监控对象的健康状态,当出现性能问题或告警时,管理员可以在这张视图上查看告警状态、分析历史性能数据、执行系统命令或者自动发出告警等。

2. 故障管理
    对于企业的应用系统来说,故障管理是企业IT基础架构管理的核心。网络、设备、各种分布式的系统、数据库系统、中间件和各种应用程序都会产生各自的事件。对于大型服务器系统,一个系统管理员往往要面对成百上千个不同的事件,负担很重。而且,由于事件量大,关系不清楚,管理员很难在众多事件中分出事件的重要程度,难以把重点放在关键事件上,同时也难以对问题进行准确的分析。由于各种事件(例如网络、系统、数据库和应用事件)之间有相关性,因此对事件进行统一处理可以大大提高管理效率,加快故障分析定位和故障处理,降低由于系统故障带来的损失。
    作为快速高缩放性的事件收集和结合平台,Tivoli Netcool Omnibus管理着每天超过2~3千万的网络基础架构的事件流,并以1000:1或更大的比率压缩。Netcool能够从200多种管理数据源收集事件,提供一个综合的集中化故障管理中心,以便管理持续增长的异构和分布架构,这都是实时实现的。

    Chase通过Tivoli Netcool进行故障压缩和相关性分析,每天2百万条事件经过压缩后为6000条,压缩比为333:1。通过为不同监控人员提供过滤的信息显示,每个操作员监控屏幕的界面为80条。
    除了功能强大的故障事件压缩和处理能力外,Tivoli Netcool还提供丰富的事件内容和灵活的事件翻译功能,一般包含事件的节点、类型和级别等50多个字段。但是,用户实际的管理中往往要求在事件中增加所需的管理内容,包括有关事件节点的位置、联系人、线路名称、运营商名称、关键资源信息和相关业务等,这些信息可以帮助管理人员在收到故障报警时,能够迅速了解故障相关的资源、人员和业务等信息,快速做出反应。例如,有关线路的事件可以显示节点、端口、下联单位、运营商、联系人和线路号等,而有关性能的事件可能显示节点、性能参数、当前性能值、设备位置和联系人等。这种灵活定制的事件显示可以更进一步地方便管理人员对故障信息的监控和查看。
    当新发生的事件信息满足预先定制的分类条件时,Tivoli管理软件提供的丰富的事件通知功能。事件通知方式包括:

  • Mail  自动向指定邮箱发送告警邮件。
  • 短信  自动向指定手机发送告警短信。
  • 声音  自动产生声音告警。
  • 图像  自动以图标形式显示告警事件。
  • 语音  利用语音系统自动产生告警电话。
  • 文件  自动在指定位置生成指定文件。
  • 其它  通过二次开发可实现客户特殊要求的告警方式。

3. 开放的管理体系
    对于企业来说,来自单一厂商的管理工具所提供的管理功能很难覆盖企业IT基础架构管理的全部需求,对于第三方监控工具和管理系统的集成能力是评价企业管理产品架构是否灵活的重要标准。Tivoli Netcool内置的Probe共有200多种,它们不但能帮助操作员从各种网络管理控制台、传输基础设施、电话设备、数据网络、LAN、WAN及应用中收集和转换信息,还能从领先厂商的交换机和路由器收集MIB信息,包括Bay Networks、Cabletron、Micromuse和N.E.T。我们还为CMIP、ASCII、TL1、业界标准UNIX及许多厂商专用协议提供Probe。
    除了专门的监控代理外,Tivoli管理软件还提供通用代理(Universal Agent,简称UA)。从技术上说,UA提供了各种数据接口(Data Provider)来和各种第三方监控数据或代码进行集成,从而实现将第三方监控(例如空调、门禁、UPS或特定应用管理工具等)完全变为监控系统的一部分。Tivoli管理软件还支持八种Data Provider,这八种Data Provider分别是API、SOCK、FILE、SCRIPT、SNMP、ODBC、POST和HTTP。实施人员总可以找到一种自己熟悉的接口方式进行开发。UA简单易学,只需简单的定制工作就可以将数据源程序发送来的数据集成到监控系统中。下图为一个机房和电力监控系统整合的实例,UA通过File的接口方式获取监控数据,并放到TEP上进行集中的告警和展示,性能数据统一存放到后台数据仓库中。


  

全面整合的管理解决方案

    IBM Tivoli不仅为用户的IT子系统单独提供价值,还能够很好地整合起来,从而实现真正整合的企业系统管理方案。采用IBM Tivoli解决方案构建的管理平台包括IBM Tivoli Netcool网络管理、IBM Tivoli Monitoring(ITM)主机/数据库/中间件/群件等管理、IBM Tivoli Composite Application Manager(ITCAM)交易监控、IBM Tivoli Storage Manager(TSM)备份管理、IBM Tivoli Productivity Center(TPC)存储管理和IBM Tivoli Enterprise Portal(TEP)统一管理门户。面对不同的管理对象,IBM Tivoli提供不同的工具,使用不同的技术手段来进行管理。
    由此可见,IBM Tivoli全方位的IT基础架构解决方案管理平台,对企业的业务价值提升成效显著,主要表现在:

  • 提高业务连续性;
  • 提供更快速的业务服务能力;
  • IT管理部门更加理性和从容地进行管理;
  • 从被动应急模式改变为主动模式;
  • 具有更好的灾难抵御能力。

参考资料:
    IBM Tivoli Monitoring Administrator’s guide (管理员指南)
    IBM Tivoli Netcool Omnibus Administrator’s guide (管理员指南)

0
相关文章