数据库 频道

未来的监控大屏是给AI智能体看的

有很多企业在做数据库的监控大屏,监控大屏这个东西在中国信息系统发展的二三十年里一直是在不断的演进的。大屏做得越来越漂亮,上面的数据也越来越有价值,但是我觉得监控大屏的发展已经走到了一个瓶颈点上。因为随着信息化的发展速度越来越快,信息系统的建设也越来越复杂,无论是信息系统的数量还是指标的复杂程度都已经超出了视觉分析的极限了。现在的监控大屏在很大程度上来看已经成为一种形式,显示的内容,显示的目的,如何通过大屏去做监控,都已经无法真正发挥作用。

前阵子优诺的傲寒总路过南京,因为时间十分有限,只能在石头城下的咖啡厅做了个小聚。他们是中国做数字孪生最早的一批企业,在早期的时候我也跟他提过那种花花绿绿的动画似乎对运维不那么直观。真正的想要让运维人员理解系统,了解系统的现状,数字表格可能还是最直观和有效的。不过那时候客户喜欢的就是逼真的仿真显示,他们当时是国内仿真显示做得最好的产品。

再次聊到这个问题的时候,他给我演示了他们最新的一些动态视觉技术。我发现那些花里胡哨的3D界面消失了,取而代之的是一个一个十分形象的动画方块,这些方块让我们很方便直观地了解到业务的执行情况。结合算法与模型,不再强调大屏上面的仿真性,而是更加深度的去模拟业务的真实的内在逻辑,监控人员可以十分直观地感受到业务运作的状况,发现业务可能存在的堵点和风险。

另外一点大变化是,依托于系统中采集到的丰富的数据,通过优诺动态视觉引擎提供的业务仿真回放功能,让这套系统能够在业务问题分析,业务故障溯源上也能发挥巨大的作用。

我当时的第一感觉是,这才是数字孪生系统该有的模样。数字孪生系统本身就是为了解决问题而投资去建设的,不仅仅是为了满足人们的视觉感官。更重要的是系统能够帮助我们去分析业务,发现和解决问业务中的问题。

回到数据库运维领域,我们目前建设的大部分数据库监控系统都是基于传统的网管思维的,采集的指标主要的目的是为了做展示。采集回来的数据需要做成仪表盘,才能让人使用。所以现在谈到数据库可观测性的时候,很多人都会和我讨论Grafana。而事实上,这与我所认知的可观测性完全不是一个东西。

目前基于Grafana的可观测性面临三大问题:第一个是随着数据库系统越来越多,如果一个企业有几百套甚至上万套数据库,做那么多仪表盘去给谁看?有朋友要说了,Grafana可以设置预警规则,有了告警才需要去看仪表盘。那么第二个问题又来了,Grafana如何才能较为精准的告警?依靠基线阈值吗?每天误报几千次上万次的告警,是不是会让你崩溃?假如说你已经解决了第二个问题,那么第三个问题又来了,在数据库国产化时代里,你的现场有真正深入理解这些数据库的DBA吗?恐怕原厂的售后服务人员里也没几个是他们自己数据库产品的真正专家吧。即使是运维Oracle的 时代,一线监控人员也不可能是专家,专家一般都在三线呢。

我觉得传统的监控已经走进了死胡同,而实际上AI监控才是监控系统的未来。实际上无论是生成式AI还是传统AI算法,都可以模仿专家的思维方式来解读和分析数据。采集回来的监控数据不一定要使用仪表盘展示出来,但是必须经过AI算法去进行分析。通过小模型计算后发现的问题再交给基于大语言模型的生成式AI去做汇总分析,最后总结出问题与发现,并产生相关告警,可能是未来监控系统的基本建设思路。

投入大量资金建设的监控系统,最终是要发挥出应有的作用的。1分钟发现问题,5分钟定位问题,10分钟解决问题,这是目前银行IT运行保障的目标,可能也是绝大多数关键业务系统的运维目标吧。要实现这样的目标,依靠传统的人肉运维,人肉监控,几乎是不可能的。只有当坐在监控大屏后面搞监控的变成了一个AI智能体,这个目标才能真正实现。

0
相关文章