数据库 频道

海致星图沈游人:图数据库的火热正从资本市场转向用户市场

海量数据爆发下,如何挖掘数据价值成为每个企业的必修课,图数据库因在处理复杂关系方面有独特的优势,可以挖掘海量关系背后隐藏的数据价值,越来越受到关注。

本文为《图数据库选型指南》系列选题文章之一,对话一线厂商和用户,揭开图数据库这一新型数据库的神秘面纱。探求图数据库技术发展的重点和难点,整理行业落地应用的实践,供业内参考。

海致星图图数据库负责人 沈游人

本期我们邀请到了海致星图图数据库负责人沈游人,2021年海致星图与清华大学联合研发分布式图数据库产品AtlasGraph,同一年,博士毕业的沈游人正式加入海致星图,他始终觉得图数据库不是一个小众市场,它的潜力是巨大的。这两年他发现了一个明显的变化,图数据库的火热正在从资本市场转向用户市场,金融、交通、能源等各行各业对图数据库的需求越来越明确。

图数据库的火热正从资本市场转向用户市场

2021年是图数据库的一个大年,尤其在资本市场非常火热,Neo4j的3.25亿美元融资创造了数据库领域单笔融资的新记录。而从去年至今,包括图数据库在内的基础软件领域在资本市场逐渐遇冷,这当然有外部经济环境的影响,但是向量数据库在大模型热潮下逆势高歌猛进,成为新的资本宠儿,资本市场一直热衷于更新的故事。

沈游人认为,资本市场热度减退等变化是技术走向成熟的必经之路,一般情况下,资本市场的热度会超前于市场。他明显感觉到市场正在发生着变化,“今年,整个图市场的火热开始由资本市场转向了客户市场,金融、交通、能源等各行各业的客户有着大量对图数据库的需求,对图数据库的需求也更加明确。”

在加入海致星图的时候他就非常笃定,图数据库不是一个小众市场。图更加直观,更能体现现实的实际情况,从这一点来看,在图上面去做数据分析相关的工作,也不会是一个很小的应用。10年前图的概念在学术界就已经火起来了,而近些年图相关的论文在三大顶会热度不减。通常新技术的产业落地,会从学术界先火起来,慢慢到工业界落地。

图数据库以图论为理论基础,使用图模型,将关联数据的实体作为顶点(vertex)存储,关系作为边(edge)存储,用点和边来表达数据之间的关系。人是社会性的动物,一定活在社会关系网络中,而关系网络就是一张巨大的图。在我们这个世界上,关系无处不在,因此一切皆可为图。

沈游人介绍,图在现实生活中的应用场景非常多,现实中的数据基本都是以图的形式存在的,图可以很好地描摹真实世界里的关系。比如我们熟悉的社交网络里,人与人之间的关系就是多对多的关系;在金融领域,客户之间的转账交易也是多对多的关系;IoT设备网络、交通网络等都是多对多的关系,这种关系无处不在,交纵错杂。而图数据库可以帮助我们快速挖掘这些数据的价值,实现多对多的关联关系分析以及确定性的推理。

企业对图数据库的需求和选型关键因素

高性能图数据库能够支持更大范围内的实时场景,如万亿级大图的查询,对于金融领域高频交易、工业互联网产效提升、能源领域电碳实时测算等场景是非常有力的支撑。

例如,海致星图基于AtlasGraph图数据库产品,助力某银行打造的知识图谱反洗钱监测应用平台,能够覆盖千万级别节点和亿级关系,建立反洗钱客户关系网络,融合可疑交易特征和全量交易登录流水,以网络图谱方式动态展现资金流转全貌,完整准确展现团伙共用设备关系、账户资金分层结构和流向轨迹,通过图的异常形态识别和人工智能图算法形成有效预警模型,高效从客户群组中抓取涉嫌洗钱团伙。目前已经多次成功挖掘数十人至上百人的疑似洗钱团伙,提升了反洗钱工作的穿透性、时效性和精准性。

沈游人指出,不同行业对图数据库的需求有共性,也有差异。随着数字化进程地不断深入,数据规模将越来越大,因此,行业对图数据库的存储容量、性能、扩展性等会有越来越高的要求。过去,海致星图的图数据库使用的是开源产品ArrangoDB,随着企业对图数据库的应用越来越深入,ArrangoDB在存储容量、性能等方面出现了瓶颈,已经无法有效支持市场需求,所以海致星图自主研发了分布式图数据库AtlasGraph,目前已投放市场。

不同行业的需求具有一定的差异性,体现在是否需要知识图谱。例如,金融业更加希望能够直接借鉴已有的行业业务积累,需要“图谱+图数据库”的一体化解决方案,比如反欺诈的关键是提高欺诈检测概率,这需要比较多的行业知识,不是拿一个图数据库就可以直接用的,需要基于业务场景进行数据建模,所以金融行业更加需要图谱。而有的行业知道图数据库有用,但是不知道怎么用,希望单独使用图数据进行探索。

总体来看,图数据库目前还处在发展初期,图数据库产品琳琅满目,选择一个合适的图数据库并不容易。沈游人介绍,企业在图数据库选型时,主要关注三大方面:

一是看功能是否满足需求,比如支持哪些数据类型,是否与企业的数据格式匹配,图查询语言支持能力是否完备,可视化界面展示的丰富度等;二是看基础性能是否满足需求,比如对基本的数据查询、数据导入、图数据扩展、图计算算法的性能等进行衡量。值得一提的是数据导入,目前大多数图数据库并不是作为一线数据接收方使用,其数据要从大数据平台和关系数据库中导入,所以数据导入是图数据库的关键性能指标之一;三是业务场景测试,看是否能够满足真实的场景需求。

图数据库未来发展趋势:云化、强化AP能力、平台化发展

“当前,图数据库有自己的一个生态位,并没有抢占关系型数据库的市场,关系型数据库在未来一段时间也没有办法去抢占图数据库的市场,因为大家在上层支撑的是不同的应用。”沈游人指出,当前图数据库发展的重点是强化产品技术和完善生态。

相比于关系型数据库,图数据库的生态并不成熟,生态的不足会阻碍图数据库的发展,让大家感觉很难用起来。但是完善生态是一个需要长期持续投入的事情,也是新的技术走向成熟的必经之路。

沈游人指出了图数据库技术未来的几大发展趋势:

一是云化,云是大势所趋,图数据库也需要提供云的支持,比如提供多租户隔离能力。

二是强化AP能力,很多用户需要图数据库具有很强的AP能力,希望能够像大数据系统一样,对资源自由调配,实现弹性伸缩,引入类似 Spark 的资源调度弹性能力是海致星图今年的一个重点。

三是平台化发展,现在很多厂商的图数据库、图计算、图神经网络GNN各用一套系统,其实是三套系统。未来这三套系统会融合为一站式知识图谱分析平台,平台化发展是未来非常重要的趋势之一。

此外,图数据库也需要不断强化自动化运维能力,提升可观测性,当系统出现故障,或者查询出现异常峰值,能否及时有效对系统内部状态进行分析,找出原因解决问题。

0
相关文章