这些年很多朋友和我讨论AIOPS的实践问题,大多数人都有一个感受,看到别人玩得似乎都挺嗨的,但是自己一下场就感觉不是那回事。别人玩得挺明白的方法自己试一试效果就差了很多,哪怕是买了一套在别人那里用得不错的AIOPS系统,自己也往往玩不转。到底是别人在催牛逼还是自己做错了什么呢?今天我们就来聊一聊制约你的AIOPS落地效果的一些常见问题。
首先制约你的AIOPS落地效果的是不合理的期望,你总是希望AIOPS能够让你一招制敌,弯道超车,解决你运维中的所有问题,但是你目前的IT治理水平,基础运维能力,监控预警能力等都存在不足,仅仅依靠购入一些先进的分析算法,或者是引入一种新的模式,就能实现超越式的发展,让你的运维水平达到一个新的高度了吗?AIOPS能够解决你的部分问题,但不是全部问题,你在上AIOPS项目之前必须对上某个AIOPS项目设置一个合理的期望值,否则会直接影响到你的目标制定,最终导致项目失败。AIOPS的实践有一个不断提升的过程,这个过程可能比你想象的要复杂得多,期间你也需要付出大量的成本,对这一点,你必须有合理的期望,否则很可能在你实践AIOPS的初期就会因为其达不到你的预期而被你早早抛弃。
其次是目标的制定问题,如果你上AIOPS的目标不明确,不知道要用AIOPS来解决你当前的哪些问题,那么就会导致你在方案选择的时候盲目听从厂家的忽悠,从而选择错误的产品,无法与你的IT运营环境、IT基础设施相匹配,为整个项目的失败早早就埋下一个大地雷。如果你要从上海开车到北京去,你必须知道最近的一个岔路口在哪里,你不能只有一个AIOPS实施的远期目标或者总目标,必须有一系列阶段性的目标,而且近期的目标必须是可以看得见的,这样你才能沿着一条可能靠谱的路线一点点地前进。
第三个问题是数据基础问题,数字化是智能化的基础。很多企业实施AIOPS项目之前甚至还没有实现初级的数字化运维,IT基础设施的监控数据都没有实现较为完整的覆盖采集,更不要说数据质量的问题。以零散不成体系的,质量低下和覆盖面不足的数据为基础来作为AIOPS的基础,那么其效果是可想而知的。很多企业直接跳过数字化来做智能化运维,其目的就是想跳过数字化这个阶段,这可能是一种注定会失败的空想。你在开始第一阶段的AIOPS实践之前,必须开始梳理你所拥有或者近期可以拥有的各种数据,以此为基础来开展AIOPS实践。
第四个问题是路径选择不合理,解决不同的问题 ,选择的AIOPS实现路径是不同的。解决全链路应用跟踪、日志分析、性能分析、RCA根因定位等,对应的AIOPS技术实现路径是完全不同的。大多数市面上的AIOPS解决方案或者产品都无法覆盖所有的场景,因此根据你要解决的问题来选择合适的产品与工程方法是十分关键的,如果选错了实现路径,那么就像是出发时走错了方向,可能会绕很长时间的弯路。
最后一点是AIOPS产品往往通用性不足,不能过于期望于完全外购,一定要构建自己的自有能力。如果你的企业无法依靠自己的能力构建智能化运维能力,那么哪怕你花再多的钱购买再先进的产品都不会有很好的效果的。对你的能力需求的最低标准是你买回来一个基础平台后,能自行定制自己的分析工具。如果做不到这一点,就先暂时放弃这个想法吧。
最后对想上AIOPS的朋友提一个建议,那就是AIOPS是未来的方向,如果你们想在这个领域做些尝试,那么不要好高骛远,就从简单的数据处理与分析做起,无论是分析日志还是分析监控数据,通过对历史数据的分析,从简单的分类与异常检测搞起,逐渐锻炼自己团队的能力,摸索适合自己团队的实现路径。当然可以参考一些别人的成功经验,但是绝对不要盲从。你真正把一些简单的场景玩明白后,再慢慢完成一些更为复杂的场景,把一个个场景真正落地才能真正把AIOPS玩明白。