海量数据爆发下如何挖掘数据价值成为每个企业的必修课,图数据库因在处理复杂关系方面有独特的优势,可以挖掘关系背后隐藏的数据价值,越来越受到关注。
本文为《图数据库选型指南》系列选题文章之一,对话一线厂商和用户,揭开图数据库这一新型数据库的神秘面纱。探求图数据库技术发展的重点和难点,整理行业落地应用的实践,供业内参考。
图:Ultipa 嬴图创始人&CEO 孙宇熙(Ricky Sun)
本期我们邀请到了Ultipa 嬴图的创始人&CEO孙宇熙,他是业界知名的高性能计算与存储系统专家、数据库专家及学者。他指出,处理数据的深度、广度和精准度是图数据库里最核心的问题。企业在选型时要关注性能、功能和厂商技术服务支持三个方面。即将推出的图查询语言GQL国际标准非常关键,该标准会带动更多的厂家和客户一起推动图数据库发展。
万物皆可关联,从成吉思汗和牛顿说起
孙宇熙与图数据库有很奇妙的缘分,20年前新世纪刚刚到来,在硅谷上班的他听到广播里谈论:东方伟大的征服者成吉思汗,与西方最伟大的科学家牛顿之间有怎样的关联关系?
讨论成吉思汗和牛顿的关联关系是一件很有趣的事,这也埋下了一粒探寻的种子,多年以后,他开发了Allhistory(全历史),以实时化、交互式知识图谱为核心引擎,通过高度时空化、关联化数据的方式构造及展现数字人文内容。
知识图谱路径的探索就像寻找因果关联,人们喜爱探寻因果和关联,世界上的人、事、物存在着千丝万缕的联系,彼此间就有成千上万条路径,找到最合适的路径,就能找到关联关系和想要的答案。梳理成吉思汗的知识点和牛顿的知识点,可以发现N条关联路径。其中的一条是:成吉思汗发动了蒙古西征,为欧洲带来了黑死病的爆发,瘟疫在欧洲肆虐了几百年,影响了欧洲的发展,伦敦大瘟疫爆发时,也就到了牛顿的时代,当时,他正在乡下躲避瘟疫。成吉思汗和牛顿横跨东西时空400年的历史,就这样通过图关联的方式直观呈现出来。
图:成吉思汗与牛顿跨越400年东西时空的关联路径
知识图谱能够将知识点更直观地表达出来,关联关系就隐藏在一条条路径中。构建Allhistory图谱需要底层的数据库作为支持,去算出这样的路径,找到关联关系。图数据库就是表达关联关系的理想选择。图数据库以图论为理论基础,使用图模型,将关联数据的实体作为顶点(node)存储,关系作为边(edge)存储,用点和边来表达数据之间的关系,是一种NoSQL数据库。但是当时(注:2019 年前)市场上的图数据库,在实时化以及复杂逻辑计算时的表现并不理想,效率较低。
包括孙宇熙在内的多位专家都提到过图数据库相对而言更为复杂,难度更大。“图数据库理论上讲,你要真的把它做好,是一件极具挑战的事情。需要存储引擎、计算引擎、图查询语言,包括上面的工具支撑的应用开发,打造一个完整的新体系。”
2019年,孙宇熙创立了Ultipa嬴图,从0到1重新构建一款图数据库,为了获取更高的性能,包括存储引擎、计算引擎、查询语言都是自研,尤其是其自研的图查询语言UQL,这在国内图数据库市场算是一个异类,不少国产图数据库的查询语言是基于openCypher或Gremlin实现。
万物皆可关联,将数据关联起来才能更好挖掘数据价值,产生更有意义的洞见,图数据库也成为DB-Engines上近十年来流行度趋势发展最快速的数据库类别。
图数据库的应用与选型
理论上图数据库可以应用在任何行业,但是不同行业图数据库的应用落地存在差异,目前金融业应用得更为深入。近些年,图数据库的应用场景也越来越广泛,比如反欺诈、反洗钱、流动性管理、社交图谱、游戏账号管理、公安刑侦、供应链管理、客户360等场景,一切需要查询数据关联的场景都可以用图数据库。
图数据库是为挖掘数据关联关系产生洞察而生,“数据之间如果不是关联的,那你用关系型数据库就好了。但是有另外一个问题,数据如果都是不关联的,那你有什么intelligence?没有任何洞察。”孙宇熙说。
以流动性管理为例,2008年金融危机发生之后,世界上的监管机构加大了对银行流动性的监管。流动性管理需要多维度的数据分析,计算逻辑非常复杂。孙宇熙指出,一旦把数据形成一个关联分析网络,就要考虑在这个网络当中怎么去快速而灵活地进行运算?需要数据各种聚合、过滤、分析、穿透……这就是图数据库应该干的事。通过图数据库,能够实现从微观到宏观的,多维的、灵活的实时调取、分析与洞察。如果用关系型数据库,会涉及大量的建表和多表的join操作,效率会很低,甚至无法返回结果。
按照对实时性要求的高低来划分,图数据库的应用场景也可分为在线、近线和离线业务。需要不同的架构来处理不同的业务负载,有的偏TP,有的偏AP,HTAP也是图数据库当下演进的方向。据了解,中外市场的应用场景存在差异,对图数据库的需求也会有不同。Ultipa嬴图在中国市场和海外市场都有布局,据其观察,中国企业比海外企业的业务场景更为复杂,数据规模更大,会需要两套架构,比如,国内大行和村镇银行,如果都用图数据库,需求是不一样的,而海外可能用一套架构就能满足。
目前企业的数据源都可能在数仓或核心系统的关系数据库中。而Ultipa嬴图自身做了相对“极端”的尝试,其官网的系统除了部分前端展示功能使用了开源组件,其他诸如内容数据的底层存储和查询都是搭建在Ultipa嬴图数据库上的,没有使用文档数据库和关系型数据库。
当下图数据库缺乏标准,这在一定程度上阻碍了其发展,也为企业选型造成了困扰。孙宇熙认为,企业在进行图数据库选型时要关注性能、功能和厂商的技术服务支持三个方面,结合自身需求选择合适的图数据库。
图数据库的未来:GQL标准非常关键
整体来看,图数据库的发展还处于初级阶段,在市场的应用落地会有一个逐步深入的过程。孙宇熙认为要从微观和宏观两个方面来看图数据库的发展。微观上,图数据库开始着力于创新场景应用,创新场景往往是边缘场景,会逐步从边缘深入到核心应用场景。而从宏观来看,图数据库会向下发展,最终会覆盖到传统关系型数据库的所有场景。但是,并不是所有的关系型场景都需要被图数据库改造,需要综合考虑收益、成本和代价。10年后,可能有一半的关系型场景会迁移到图数据库上。未来,随着数字化转型的深入,海量的数据逐渐准备就绪,能够挖掘数据关联关系的图数据库会变得越来越重要。
从技术的发展角度来看,HTAP、分布式架构、云是比较确定的发展趋势。各厂商还需在存储引擎和计算引擎等内核方面不断优化,云并非是简单将图数据库搬上云,需要基于底层云资源进行重构。Ultipa嬴图推出了DBaaS服务Ultipa Cloud,目前在海外主流云上可用。此外,与AI和 LLM 大语言模型的融合也是值得探索的方向(注:下面的配图直观的展示了现有大模型的局限性,以及图数据库如何增强大模型)。
大模型无法实现(或替代)图数据库的深层检索
图数据库的海量结构化(深度、精准、白盒化)查询
可以直接增强 LLM大模型能力
孙宇熙指出,处理数据的深度、广度和精准度是图数据库里最核心的问题,也是最难的地方。比如在性能方面,他强调只有高密度并发才能达到真正的高性能。
在谈及图数据库未来发展时,孙宇熙特别提到了GQL标准,他是非盈利组织LDBC的委员之一,深度参与了GQL标准的制定。他介绍,GQL标准之所以会出现是为了满足实现SQL所不能完成的事情,比如SQL更多是从一个二维关系表的结构去触发,对数据进行分析、查询、聚合、过滤,但是SQL 缺少无限灵活递归下钻的能力。但图是更高维,具有深度下钻的能力。图查询语言GQL对图数据库的发展非常关键,今年年底或明年初,ISO-GQL标准草案会正式发布,届时图数据库厂商或多或少都需要改造自己的产品以满足该标准的要求,GQL标准的推出也会带动更多厂商和客户加入图数据库的建设中。目前,各厂商也都在密切关注GQL的发展动态。
产品技术、标准和生态是基础软件发展的三大要素,随着各方不断努力,推动着产品技术、标准和生态向前发展,图数据库的未来也值得期待。