最近重新获得了编程能力后,我又开始打起了处理已有的一些文档数据的主意了。以前我收集的几万篇MOS上的文档,我总想整理出来,做成一个数据库。不过这件事因为需要写个程序来处理而被搁置了。昨天我生成了一个将文档合并生成DOC,然后上传到元器的程序,试着处理了一下,还真不错。现在我的公众号的Oracle知识问答强大了不少。
生成式AI和其他AI技术的发展,让我们使用数据的能力提升了不少。前些年大数据火热,并没有让各种大数据都被用起来了,而只是被存储起来了。当年我们发现需要分析数据的时候发现缺失很多数据。于是不管有没有用,把数据都采集下来,存储起来了。大数据平台建了个轰轰烈烈,但是分析和使用数据的手段依然缺乏,数个PB的数据不知道该如何去使用。特别是大量的文档数据,用ES去搜索效果太差,而且搜出来那么多数据,人都看不过来了。
随着AI技术的发展,对文档类的非结构化数据的理解能力有了本质的提升。大数据的深度处理能力必然是跳跃式的发展。在新一轮的数据处理能力建设中,生成式AI占据了重要的地位。而另外一个不可忽视的能力来自于传统的关系型数据库的标量查询能力,这是SQL最为重要和基础的能力。
RDBMS的标量查询加上大数据的向量查询,整合起来是一种十分强大的大数据处理能力,再配合以图、地理信息、时序等的处理能力,就构成了一个十分强大的数据处理体系。
在未来,多模态、融合数据处理能力是一个数据处理平台必须具备的能力。而数据库作为最为重要的数据处理基础平台,如果能把这些问题解决好了,那么这个数据库产品的应用场景就大大拓宽了。目前虽然我们已经拥有了各种十分强大的数据处理武器,不过使用它们的门槛并不低。一些技术能力比较强的团队可以很好掌握,但是对于海量的中小用户来说,门槛太低。
数据库厂商和数据库产品可以为数据平权提供助力,就像当年数据库对中小企业信息化的助力类似。这就需要数据库产品在多模态、融合数据处理、HTAP等方面都提供强大的能力。
不仅如此,数据库产品不能仅仅成为一个数据存储的容器,而应该成为一个数据处理的平台。通过系统包提供各种数据加工、数据清洗、数据增强检索的能力。甚至可以被用户直接当成一个MCP Server,提供应用所需的各种工具。
前阵子的OB发布会上,OB发布了一个RAG解决方案PowerRAG,我觉得是往这个方向走了一小步,不过这个步子还不够大。首先这个方案只在公有云上提供,而公有云上比PowerRAG更强大的解决方案也不少,似乎也无法成为用户的必选项。而实际上对于广大线下用户而言,一个真正融合了AI完整生态能力的数据库产品,可以让企业应用开发不再搭乐高积木,是目前和未来十分迫切的需求。不知道我们什么时候能够在国产数据库中很方便地开发自己的AI应用。