AI时代异构数据处理需求为数据库带来了新的挑战,大量的文档、图片、音视频数据,需要处理好结构化、半结构化、非结构化数据,报告指出企业80%以上的数据都是非结构化数据,对这些多模数据整合处理,催生了多模融合数据库的发展。
业内一些专家认为,多模融合数据库需要具备多模数据存储能力,以及标量、向量等融合计算能力。随着AI应用的发展,无论是关系型数据库,还是NoSQL数据库,对向量检索的支持基本成为各数据库的标配,也有一些产品继续扩展更多的模态。
关系型、文档、向量、图、地理空间、KV、时序……多模的边界在哪里?真的要打造One Size fits All的数据库?
专家认为,融合的边界可以从上游需求、技术实现难度和成本两方面考虑。需求侧,考虑使用场景会经常使用哪些不同的模态,会是一个很大的判断依据。实现侧,考虑技术方案的融合难度、成本等,如有技术方案可以融合起来,能够解决问题而且成本可接受,那就可以把这些方案融合在一起。
总而言之一句话:不能为了融合而融合,融合需要能满足真需求,在技术和经济方面具备可行性。
抛开“超融合”“多模融合”“One Size fits All”这些纷繁的理念,可以看到融合的趋势正在数据库市场真真切切地快速发生。只有一款数据库的厂商自然而然将这种融合做得更彻底,也更激进,发展势头更接近于One Size fits All。而那些打造全栈数据库产品的厂商也在不遗余力推出融合型的数据库,多模数据库在全栈数据库厂商这里更多是作为一个新的产品类别,在多样化专有数据库产品之外去探索新的可能。
AI无疑是一个新的变量,带来新的挑战和机遇。理想的状态下,数据库的融合将在AI场景中淬炼、演进,最终因为不同的定位分化出各自的差异性和独特性。
不过也有一部分人对多模融合数据库的发展表示担忧,从技术以及非技术两方面分析,多模融合数据库不应该有太大的野心,比如把其他数据库做的事都大包大揽过来,那是比较难的。
首先技术方面的因素,这些持保留意见的人认为,多模融合数据库数据库不可能做到什么场景都很厉害,只能是在某些特定场景下胜出,这也是这么多年来越来越多类型的数据库不断涌现的原因。“做产品的人都知道,你真要把一个产品做到极致,就必须不断收缩,收缩,再收缩,在一个定义明确的细分之内,你可以把它做得很极致。一旦把它放宽泛,你就变成样样精通,样样稀松。”
然后是非技术方面的因素,理论上讲,一个多模融合数据库是可以替换掉其他的数据库,具有简化技术栈、方便运维、节省成本等等优势。但是现实中,很多中大型企业内部其实是一个很复杂的社会体,不同数据库往往支撑不同业务,属于不同的组织团队。所以,退一步讲,即便技术能实现,出于政治和自身利益考虑,大家也不愿意把业务放到一个中央化管理的数据库。而且,原来部署的IT资产也不能说不要就不要了。
此外,很多中大型企业为了更好地分散风险,也会选择使用多个数据库。不过,一些中小企业更有意愿使用融合型数据库。
从目前的市场现状来看,上面对融合型数据库的担忧有一定的道理。当前市场上比较活跃的多模融合数据库,很多都是“一专多能”。他们往往先有一个深耕的场景领域,在某个模态下先做专,做透,站稳脚跟,然后再延展出新的模态,这样“一专多能”型的多模融合数据库,似乎更有市场,更容易在市场上立足。非技术方面的因素,更多是一个分市场蛋糕的问题,只能尽可能多地去争取。
融合数据库另一个主打的特点是消除数据孤岛,不过在大型集团使用多个数据库的情况下,融合型数据库也只是众多数据库的一份子,想要获得完整的数据,更好地实现数据驱动,可以使用“多数据库+数据服务层”来实现,也就是构建一个中央化的数据服务层,能做到实时数据分析。但是构建的这样一个数据服务层,只能做到最终一致性,在技术上还有优化的空间。不过即便如此,现有的方案也足够一些场景使用。
实际上,从产业落地角度来看,技术没有最好,只有满足需求的合适以及够用。