LLM成为新的核心IT基础设施,数据库该何去何从
这两年AI大火,不过还没有多少人把大语言模型看作是一种新的IT基础设施。以我这两年转战AI赛道的所见所闻,越来越意识到大语言模型已经逐渐的成长为全新的IT基础设施,并且大有占据C位的趋势。
提到IT基础设施,大家的脑子里马上会浮现出操作系统、数据库、中间件等等,其中数据库更是最为关键的IT基础设施。以往大家在讨论一套系统的时候经常会关心你后台用的是哪种数据库?不过随着时间的推移未来大家更多的会讨论你在用哪种大模型,而不太会关注你在用哪种数据库了。
当下企业在做数据库选型的时候很多时候还在考虑与Oracle、MySQL、SQLServer等的兼容性问题。因为我们需要花比较大的精力来迁移数据,适配应用。
不过未来AI编程大行其道的时候,数据库的兼容性就没那么重要了,因为大模型知道每种数据库之间的具体差异,会自动的对数据库进行适配,在有沙箱的条件下甚至可以自行去做验证。
未来的应用的更多是在考虑如何适配某个可本地化部署的大语言模型。虽然智能体框架大体是成熟的,不过在针对不同的大模型有的时候、面对不同的场景其表现时不够稳定的,需要做相应的适配。
在这种新的架构下,应用的核心业务逻辑将不会封装在访问数据库的SQL语句里,而是被写入知识库、Skills等语义描述中。大模型通过立即业务逻辑去动态调用工具访问数据库,甚至直接编写SQL去获得分析业务所需要的数据。代码的逻辑是即时产生的,甚至是存在一定的偶然性的,这和人类思考问题的方式类似,面对同一个问题的多次分析,很可能思维链条是完全不同的,除非是遇到了特征十分明显的历史案例。
在这种全新的业务架构下,LLM成为系统的核心,而数据库则退位为“数据源”,成为一个配角。要当好这个配角也并非易事,能够更好地适配AI的数据库才是未来的好数据库。大模型的能力有强弱,智能体框架的能力也有强弱,不过越强的大模型使用成本越高,更强的智能体也会消耗更多的Token。因此数据库如何适配大模型也会成为一个很重要的话题,如果说某个数据库天然适配AI应用,那么在AI时代这个数据库将会有更大的优势。未来看待某个数据库的适配能力,不是看它和oracle有多兼容,而是和大模型有多适配。一个优秀的AI时代的数据库必然是带有很多AI特性的,比如说出厂的时候就自带一些使用他的skills和mcp tools,大模型无需适配就可以自然而然地读懂这这些接口,完成适配。只要能够找到数据库的MCP SERVER上注册的工具,利用SKILLS,应用系统就会十分流程地访问数据库,这样的数据库是适合AI时代的。
可能还会有数据库不甘于沦为配角,还希望数据库继续占据IT基础设施的C位,那么数据库必须进行自我革命了。从Oracle 26AI的发布我感受到了这种努力,Oracle的select AI已经从GenAI能力核心升级为智能体驱动了。不过我觉得这种改变还不够,因为未来的应用系统已经从纯粹的数据驱动转变为语义化的数据驱动了,目前的数据库的核心架构已经无法适应这种变革。最近这段时间我也和几个搞数据库的朋友谈到过未来的数据库可能要从存储引擎、计算引擎的双核心转变为存储引擎、计算引擎、推理引擎三引擎并存的新架构了,而推理引擎的能力又是其中的关键。不过我的这个理论目前还很少能获得共鸣。
不管怎样,AI时代对数据库的挑战是全方位的,DB4AI已经不够用了,而DB4DATA,数据库能做些什么呢?不做大的变革恐怕是不足以应对AI时代的新需求了。