数据库 频道

告警闭环管理成本太高如何破

我的DBA工作经历的二十多年里,大多数都和告警在打交道。最初的时候,用户是不知道有DBA这个岗位的,单位里也没有DBA,能有个懂计算机的就算大企业了。我也往往是他们出了问题才会被请到现场去帮忙处理,他们那时候叫我“搞电脑的”。当时我经常去文锦渡检验检疫局帮忙“搞电脑”,一进门,检务科的大姐就会大声通知大家:“搞电脑的徐工又来了”。

不过哪怕是那时候,用户在我处理完故障后都会问:“你这么搞一下,是不是以后再也不会出问题了。”,我当时只能说:“不好说,电脑这玩意挺复杂的,谁都不能保证它不出问题”。接下来科长肯定会问:“出问题前,我们能不能提前预警呢?每次都让业务部门找我们,我们也听没脸的”。

这些年的运维自动化工作我们主要做的就是采集与告警,大家的目标也是一致的,一方面是让告警更加提前,另外一方面是让告警更加准确。在建设运维自动化建设的初期,闭环管理,减少故障是两个十分重要的建设目标。早期一些不太懂业务的领导甚至提出了上了系统,消除严重故障的豪言壮语。

不过事实上无论是提前预警还是闭环管理,都是很难实现的。虽然我们采集了大量的指标,并设计了很多规则、阈值,但是想要比较准确地预警关键故障,并且让每个故障都能得到有效的管理,采用传统的方法是极难实现的。有朋友可能会用互联网企业的成功案例来说明我的观点不见得对。实际上互联网企业的一些做法是无法在传统行业里复制的,互联网企业构建的是一整套DEVOPS体系,应用通过与平台的高度适配,常见的一些高可用问题等都已经可以通过平台实现自愈,只需要关注业务流量和IT服务质量的问题就可以了。他们的成功案例是基于极大的IT成本投入之上的,是无法复制到传统行业的。

告警成本过高的主要因素有几个,一个是确定告警是否存在的规则太过笼统,阈值定的太高则真正故障来了可能未能预警,阈值定的低了,可能会出现告警风暴,不利于闭环管理。这是传统的运维自动化系统从骨子里无法解决的问题,通过长时间的优化,可以提高告警的准确性,但是无法达到一个比较高的水准。

存在上述问题的最为根本的问题是传统的运维自动化系统中,告警是靠系统的,确认告警是靠人的,二者是无法完全融合的。要想真正实现上述目标,需要从宽告警,自动消融。告警消融自动化是我们一直想做的事情,只不过限于传统技术条件的限制,自动消融告警一直缺乏很好的技术手段。

今年是AI AGENT元年,我们又把这个课题拿到台面上了,基于LLM的告警自动消融似乎是解决这个运维难题的关键。通过数字化手段,尽可能地采集到数据库的各种运行状态数据,通过构建多维度的故障、健康模型,从多维度发现数据库运行中存在的隐患,并降低告警门槛。不过这只是第一次告警,这种告警不是给DBA告警的,而是给AI告警的。AI智能体收到告警之后,立即启动后台诊断,如果发现这个告警短期内不会演变为真正的故障,则自动降低告警级别,消融告警。如果自动诊断发现了严重故障,则提升告警级别,将告警推送到ITSM流程中,要求运维人员进行闭环管理。

AI技术的发展,突破了很多业务领域的能力界限,很多以前我们觉得不能做,做起来成本太高的事情,未来将变得可行了。作为DBA来说,无论你自己喜欢不喜欢AI,都不得不面对AI的挑战了。

0
相关文章