海量数据爆发下如何挖掘数据价值成为每个企业的必修课,图数据库因在处理复杂关系方面有独特的优势,可以挖掘关系背后隐藏的数据价值,越来越受到关注。
本文为《图数据库选型指南》系列选题文章之一,对话一线厂商和用户,揭开图数据库这一新型数据库的神秘面纱。探求图数据库技术发展的重点和难点,整理行业落地应用的实践,供业内参考。
星环科技图数据库高级产品经理 刘磊
本期我们邀请到了星环科技图数据库高级产品经理刘磊,由于在博士阶段的研究领域涉及图算法应用和Ontology,并且接触过图数据库相关技术,认为图数据库、图技术有发展前景,便投身行业中。他指出国内图数据库市场正处于快速发展的阶段,一些业务场景需要更深入地挖掘和探索。
图数据库的落地应用和选型
IDC调研发现,95%的企业认为图数据库是重要的数据管理工具,超过65%的厂商认为在业务上图数据库优于其他选择。
刘磊介绍,目前图数据库在国内已经有不少落地场景,应用最广泛的是各类知识图谱场景,随着上一波AI开启了知识图谱的建设热潮,促进了图数据库的应用。此外,还有社交网络场景、智能推荐场景等。
在行业方面,相对而言,金融业应用图数据库的时间较长,落地场景较多,更为成熟。在金融领域,图数据库被广泛应用在反洗钱、反欺诈、企业关联关系分析、担保链、担保环等场景。在工业领域,图数据库应用在设备网络拓扑结构模拟,设备网络风险分析、网络流量分析等。
整体而言,不同行业对图数据库的需求有差异,其落地场景既有边缘业务也有核心业务,不能一概而论。“它有成熟的部分,也有不断创新涌现的部分。”刘磊说,即便在图数据库发展较为成熟的金融业,也有正在探索的场景,如何把现在已有的其他类型的数据通过图数据库转化成图数据,挖掘新的数据价值,需要一个探索的过程。
刘磊指出,不同的业务需求对图数据库的存储和计算等能力需求也不一样,在选型时的关注点也不同。对于数据量较大的企业,可能更看重存储性能,那么分布式存储可以作为针对海量数据存储的一个很好的解决方案。在数据分析方面,可以分为短查询和深度关系查询以及图算法计算分析这些主要场景,可以看到,这些数据分析有的偏于实时分析,有的是离线分析。对于时效性有需求的客户会对数据实时分析性能有高的要求,然而客户业务如果更多的是用于数据离线分析,那么他们对实时分析的性能表现就不会特别关注。对于业务侧的用户,可能对图数据库数据可视化能力要求较高,可以通过低代码或无代码的操作实现业务数据分析,以可视化的形式更生动直观地呈现图数据所讲的业务故事。而对于有IT背景的使用者,可能会做一些数据开发,通过使用数据接口获取、计算、分析图数据。
图数据库的客户很多都是大型客户,对图数据库会有定制化的需求,但是图数据库应该被打造成通用的标准化产品。如何以更标准化的产品满足企业的定制化的需求?如何去平衡取舍?
刘磊介绍,面对客户的定制化要求,我们会结合StellarDB产品的特点分析该需求是否可以一般化,即常说的产品化,考虑其是否能够面向更多的场景,更广泛地应用,并通过不断实践迭代,将其作为产品化功能开发出来。比如StellarDB新发布的动态图模型的想法最初是受到某证券企业的定制化需求的启发,我们通过研究考虑如何实现时序数据的动态变化分析,如何在数据动态分析过程中直观呈现图数据的拓扑结构变化或数据变化,从而更加直观地反映业务数据变化。考虑到将该功能做得更一般化,固化到产品里,就要考虑底层存储模型的设计、数据展示的逻辑、可视化功能的设计等。
图数据库发展趋势:动态图、AI融合、多模联合分析
从技术架构来看,图数据库可分为分布式架构和集中式架构,整体而言,近20年来图数据库经历了从集中式架构到分布式架构的演进,目前国内图数据库采用分布式架构的居多,这也是为了更好地应对海量数据爆发的需求。从数据模型来看,图数据库可以分为RDF和属性图。刘磊介绍,如果想去刻画一个更客观的实际场景,可能更适合选属性图,像StellarDB就是原生支持属性图,如果构建更偏向于使用三元组就能实现的场景,会考虑采用RDF。在工业界,属性图会多一些,在学术界RDF偏多,RDF在知识图谱的应用也较多。
刘磊观察,将图算法的能力内置到图数据库中,提供一站式的存算一体服务是图数据库的主流技术路线。图数据库要能存储数据,也需要具备一定的图计算能力,提供强大的图查询和图分析能力,包括短查询和复杂查询的处理能力等。
动态图和图数据库的有机结合也是图数据库一大发展趋势,动态图技术和数据的可视化,是学术科研界的热门研究领域,实际业务也有很多这样新的需求,需要动态图数据能够用于可视化展示和分析。特别是在金融领域,比如金融反欺诈场景,动态图可视化应用会辅助用户进行业务分析。
与AI融合是数据库的发展趋势之一。图数据库和图机器学习有机结合也是图数据库的一个发展趋势。2018年左右开始,在学术科研领域,机器学习的繁荣带动了图机器学习(图神经网络GNN)的发展。近几年,图机器学习提升了诸如分类、预测场景结果的准确率,有越来越多的场景落地。刘磊介绍到,将图数据库与图机器学习有机结合可以有效降低图机器学习的使用门槛,也是StellarDB的探索方向之一。在StellarDB新版本中,StellarDB和星环科技自研的ZenGraph深度图框架结合在一起,为企业带来更智能化的应用。此外,随着大模型应用不断落地,将图数据库融入到大模型生态也是值得探索的一大方向。
多模联合技术将图数据与其他类型数据有机结合可以更好地释放潜在数据价值。市场上存在多种类型的数据库,比如关系型数据库、图数据库、时序数据库、文档数据库等。实际上每种数据库都有自己擅长的业务场景,各种各样的数据库承载独立的系统,容易造成数据孤岛。通过多模联合技术路线,可以将图数据和其他类型的数据有机结合起来。像星环科技通过统一的SQL查询语言可以操作多种类型的数据,能联通多种业务场景,挖掘更多的数据价值,也降低了运维复杂度。
刘磊指出,当前,国内图数据库市场正处于快速发展的阶段,一些应用场景还有待进一步深入探索。越来越多的落地场景给了行业信心,除了产品技术的打磨提升,图数据库标准和生态的构建也将成为接下来图数据库发展的重点。