本文为《图数据库选型指南》系列选题文章之一,对话一线厂商和用户,揭开图数据库这一新型数据库的神秘面纱。探求图数据库技术发展的重点和难点,整理行业落地应用的实践,供业内参考。
海量数据爆发下如何挖掘数据价值成为每个企业的必修课,图数据库因在处理复杂关系方面有独特的优势,可以挖掘关系背后隐藏的数据价值,越来越受到关注。
本期我们邀请到了杭州悦数CTO叶小萌,他认为图查询语言标准GQL的推出、支持HTAP、图数据库与AI/大模型结合这三个方面是图数据库的研究重点,也是未来的发展趋势。近几年,图数据库的应用落地正在加速,已经从互联网社交网络拓展到金融、电信、制造业、能源电力等越来越多的行业。不过图数据库还处在早期发展阶段,还有很长的路要走。
杭州悦数CTO叶小萌
01 图数据库从社交网络走到千行百业
图数据库是一种NoSQL数据库,是将包含顶点和边的基本图结构与持久化技术和遍历(查询)语言相结合,以创建针对高度关联数据的存储和快速检索进行优化的数据库,其中点表示实体,边表示关系。在图数据库中,实体之间的关系与数据中的实体同等重要,甚至比后者更加重要。因此,与其他数据库相比,图数据库更擅长表示和处理关系,挖掘隐藏在数据之间的价值。
像其他NoSQL一样,图数据库也是因互联网的爆发而发展起来。叶小萌是较早接触图数据库的那一批人,从2011年加入Facebook(现Meta),到2015年加入蚂蚁集团,再到2018年从蚂蚁集团出来创立图数据库品牌悦数图数据库,一路来的工作都与图数据库相关,他也见证了图数据库的发展。
图数据库按照数据模型的不同分为RDF和属性图,如今工业界大部分都是属性图。叶小萌介绍,图数据库最早的应用是随着互联网发展起来,用图(网页是点,网页之间的引用关系是边。)表达互联网的网络形态。当时互联网的索引关系较为简单,基本不需要属性,大多应用RDF,且以学术界居多。
2007年首个商业的属性图数据库Neo4j成立公司,移动互联网、大数据、人工智能、机器学习等新技术进一步推动了图数据库的快速发展,图数据库经历了从单机到分布式的演进,如今属性图已经成为工业界主流。
从属性图来看,最早应用于社交网络,例如Facebook(现Meta)、LinkedIn、Twitter等应用图进行好友推荐。接下来图数据库从社交网络逐步走到金融业、高端制造业、零售业、能源电力行业、生物制药、游戏、政府、公安,走向千行百业,应用于智能推荐、搜索优化、集成电路EDA设计、供应链优化等领域、金融反欺诈、反洗钱、电信诈骗等场景。图几乎无处不在。
比如在高端制造领域,BOM图零部件非常复杂,以汽车为例,将汽车零部件BOM图拆解到螺丝钉层面,可能经过几十层,如果用传统数据库来呈现BOM图,会非常慢,大概需要10分钟。而图数据库擅长处理关系,就会很容易实现。
叶小萌在2018年出来创业时觉得图数据库将迎来一个爆发点,在最初的两年,用户对图数据库还缺乏认知,还需要向用户解释什么是图。疫情以来,大家对图数据库有了更深入的了解,如今与客户讨论更多变成了在什么地方以及如何用图数据库,图数据库正加速落地应用。
02 需求与选型:重点关注性能、易用性、扩展性
与其他数据库一样,图数据库并不是针对特定行业做的产品,而是通用的软件产品。但是不同应用场景对图数据库的需求存在差异。叶小萌认为,总体来看,图数据库的应用场景有偏向AP分析类和偏向TP交易实时类两种,而且这两种场景都会同时存在。
叶小萌建议,企业机构在进行图数据库选型时,要重点关注:该图数据库是否同时支持AP和TP。在 TP 端重点关注性能,查询量、查询速度、以及并发能力等。在 AP 端,要考虑算法的丰富程度以及易用性,比如是否容易去拓展让用户去写一些算法等。此外,非常重要的一点是企业都在快速发展,数据量也会越来越大,系统的可扩展性也需要重点关注。目前,以悦数图数据库为代表的图数据库采用存算分离的分布式架构,拥有灵活的弹性扩展能力。
图数据库擅长处理关联关系,在数据库堆栈中有自己的生态位。传统关系型数据库,需要多表Join操作去做关联分析,在复杂分析场景,当做一些深度遍历时,传统的关系型数据库,以及能处理图模型的多模数据库就会变得非常慢,影响性能。
当前,企业里应用图数据库常见的业务系统架构需要三套系统,图数据库扮演连接器的角色。首先有一个TP数据库保存数据,数据会同步到后端的数仓进行后续分析。如果业务对关联关系分析有诉求,还会用到图数据库,数据会从TP 数据库同步到图数据库。这样一套架构会存在一些问题,首先,三套系统,建设成本和运维成本都比较高,最重要的一点是时延问题,图数据库的数据从TP数据库同步过来会存在一定的延时性,某些对时延要求高的业务无法接受。
现在有一些客户提出用用图数据库替换关系型数据库的需求。如果图数据库能支持增删改查,支持事务,可以用图数据库替代关系型数据库,业务数据直接写入图数据库,图数据库再把数据同步到后端数仓,整个系统就简化成两个。系统建设成本、运维成本以及时延的问题都可以很好解决。
叶小萌指出,由于图数据库发展图数据库发展时间较短,在事务支持等方面还不够成熟。未来三到五年,随着图数据库不断成熟,以及业务需求需要,会有一些场景使用图数据库替代关系型数据库,但不是完全替换。他认为在所有NoSQL数据库中,图数据库更贴近关系型数据库。因为图数据库慢慢可以支持事务,支持实时读写,其他NoSQL数据库或者大数据系统很多都无法支持。而在查询语言方面,图数据库也有自己的查询语言,比如在最新的图查询语言GQL甚至可以支持 select 这样的SQL 语句。
03 展望未来:三大重点发展趋势
叶小萌认为,图数据库正迎来快速发展期,当下的重点和难点以及未来的发展趋势,主要有以下三个方面:
一是,GQL标准查询语言的推出。经过行业多年的讨论和研究,4月12日,国际标准化组织(ISO)与国际电工委员会(IEC)共同发布了图查询语言标准 GQL(Graph Query Language),标准编号为 ISO/IEC 39075:2024。这是继 ISO 发布第一版 SQL 37年后第二个数据库查询语言标准,相当于SQL的姊妹篇。
SQL标准自1987年推出后,各大高校、研究院所开设各种数据库课程,培养数据库人才,极大地推动了数据库的发展。而ISO-GQL标准的发布,也将终结此前图数据库查询语言所处的战国纷争的状态,更利于高校、院所开设课程培育人才,促进大家对图数据库的认知,也会进一步促进图数据库的应用。
GQL推出后,现有的图数据库产品需要在内核层面基于GQL进行重构,这是比较大的挑战。
二是,TP和AP融合,拥有HTAP能力。TP业务和AP业务对应到图数据库里面的图查询和图计算,以前通常会部署两套系统,这带来了时延和架构复杂性。如何将AP和TP有机结合起来,共享底层数据,架构上更加灵活地支持在线型TP业务以及分析型AP业务,是图数据库发展的重点。据悉,悦数图数据库已经初步具备了HTAP能力,查询和计算可以共享底层数据。
三是,图数据库与AI的结合应用。随着大模型发展,图数据库与AI/大模型结合的探索越来越多。总体来看,图数据库智能化发展分为AI4DB和DB4AI两个方向。
与其他数据库类似,AI4DB方面,图数据库与AI的结合主要集中在交互侧,Text2GQL利用大模型生成GQL查询语言,降低了图数据库的使用门槛,悦数等图数据库厂商已经有所布局。此外,便是在数据库运维方面,利用大模型的能力提供智能告警、诊断、根因分析等,助力DBA。而在内核执行优化等方面,AI的应用更多还在探索中。
与其他数据库不同的是在DB4AI方面,图数据库所支撑的知识图谱本身与AI应用结合的比较紧密。随着大模型的发展,在比较火热的RAG方面,图数据库也大有可为。悦数图数据库正在探索Graph RAG,以弥补RAG的不足。
RAG(Retrieval-Augmented Generation)检索增强生成,作为一种将检索与生成相结合的技术,RAG 使得大模型在理解和回应用户需求方面更加精准和高效,减少大模型的幻觉。叶小萌指出,RAG如果只是单纯用向量对比,本质上还是关键词比对,准确性会存在一些问题。而Graph RAG通过知识图谱、知识库增加了知识语义的解释和关联性,悦数图数据库提供了向量检索能力,当提问题时,可以通过向量比对先找出向量上相似的内容,基于语义、关联关系,先过滤掉一部分不那么相关的内容。然后根据关联关系,在图上找到近似内容或者有关系关联的块,再把这些块交给大模型去处理,效果就会比直接用RAG的方式好很多。
当前图数据库还处在早期发展阶段,正在经历市场教育的过程,市场也鱼龙混杂。叶小萌认为图数据库将迎来快速发展,图数据库也在等待自己的杀手级应用。