数据库 频道

对话TigerGraph郁介斌博士:图数据库在5-10年后取代关系型数据库

  如果你关注DB-Engines会发现,图数据库已成为数据库增长最快的类别。我们不禁要问,为什么图数据库会一骑绝尘?

  高速增长的表象与本质

  近几年,图数据库成为资本青睐的对象,无论是TigerGraph、Neo4j、Dgraph、Nebula Graph等全球知名公司,还是海致星图、创邻科技等创业企业,都拿到了不同程度的融资。当然,资本注入只是图数据库快速发展的表象,本质是图数据库在处理大数据方面的优势,是技术和需求推动的结果,这导致图数据库越来越像关系型数据库一样流行。#FormatImgID_1#

  “在数据技术体系里,图数据库是连接关系最好的体现。” TigerGraph产品创新副总裁郁介斌博士,在接受IT168记者采访时分析道,图数据库是社会型数据最好的存储方式,也是最接近高性能存储数据的数据结构方式之一。

  从需求来看,图数据库最早在知识图谱、金融风控、电信、社交、以及互联网和电商领域都有大量案例落地。比如:在金融风控领域,用户可以有效解决实时反欺诈、反洗钱、担保链检测、资金流追踪、流动性风险管理、巴塞尔协议、供应链金融等应用落地问题。之后,随着图数据库的深化发展,图应用的脚步开始向各个行业渗透。比如:国家电网,使用基于图数据库的EMS系统后,总耗时只有1.02秒,而使用传统的关系型数据库完成电力系统的全部作业(即全网状态评估、电流检查和应急分),需要26秒。再比如:捷豹路虎,图分析将汽车制造供应链计划从三周缩短到45分钟;而在传统架构模式下,整个供应链模型的查询需要花费数周。

  过去,我们一直认为,图数据库只适合在特定场景下应用;其实,图并没有特定的行业限制,所有行为都可以用图来表达。图在金融行业,可以用于进行反欺诈追踪,反盗刷,反洗钱;图还能与人工智能结合,快速识别电信行业的电话诈骗、广告骚扰以及正常营销;图在电商行业,可以对用户进行360度用户画像;图在医疗行业,可以为医生和病人推荐实时护理方案;图在制造业,可以找到复杂工艺的最佳路径。我们买东西是一张图,社交关系也是一张图,资金往来还是一张图,图数据库是知识图谱底层的一个基础设施,所有行为都可以用点、边以及图的数据形式进行存储……图,无处不在!

  提图数据库,很多人会想到知识图谱。至于,图数据库和知识图谱是怎样一种关系?我们可以把图数据库理解为是知识图谱进行存储和展示的一种方式。知识图谱包括决策系统、推荐系统、智能问答。所以,从本质来看,知识图谱是图数据库关联最为紧密、场景最广泛的应用方向。知识图谱根据知识形式的不同,可以分为面向语义网络的RDF图模型,以及面向结构化实体的属性图模型。由于传统的知识图谱的数据源主要是文本,所以以RDF图模型为主。随着大数据时代的到来,属性图模型由于理解能力更好获得开发者的追捧,有人也把现在的“知识图谱”定义为是“后知识图谱时代”。

  跃迁进行时

  问题是,图并不是一个新概念,为什么这几年变得火爆?

  郁介斌博士认为,最首要原因是,查询语言不统一。由于每个数据库都有自己的查询语言,不同的图数据库采用不同风格的图查询语言来实现与数据库的对接,导致用户的学习成本很高。有人可能会说,都是数据库,直接采用SQL不就行了吗?

  如前文所述,SQL对应的是二维的关系表及数据结构,无法满足图数据库高维数据结构需求。比如:K-Hop、路径查询这种共天然、递归式操作以及广度或深度优先搜索,采用SQL难以实现。简单理解,SQL针对一到三层的数据还能追踪,但到十层以上就扛不住了。

  曾经,针对图数据库查询语言问题,处于江湖混战的局面。比如:开源届主要是支持Apache Tinkerpop的Gremlin,但Gremlin太过复杂,导致用户写起来很痛苦。用户的使用习惯,一直更偏向于SQL,为了让用户快速上手,TigerGraph选择使用GSQL进行查询的路线,这是一种类SQL的语言,真正实现了语言的标准化。

  众所周知,继SQL之后,GQL(图形查询语言)成为ISO/IEC国际标准数据库语言。那么,GQL是怎么形成的呢?其实,从2016年开始,Oracle、TigerGraph、Neo4j就在美国标准委员会开始讨论扩展SQL,支持图属性。到2019年9月,国际标准(ISO)正式批准立项,把GQL定性为图查询语言的标准。其中,TigerGraph的GSQL多图、模式匹配等相关的创新被采纳,GSQL完全支持GQL。GQL的标准化,进一步证明了TigerGraph查询语言选择的正确性。

  除了查询语言问题,底层的系统层面要做好支撑,这是实现规模化扩展的前提。图数据库不像传统的关系型数据库,可以灵活地替换底层的数据库厂商,图数据库项目一旦进入方案设计,就无法平滑替换底层架构,除非重构。大部分图数据库厂商都在应用层面做相关部署,而在底层技术上却少有投入,这也是即使是头部图数据库厂商,也无法跨越性能瓶颈的最根本原因。TigerGraph的核心团队很多是来自Teradata,在大规模并行处理数据库方面有着深厚的经验积累。这也是TigerGraph更具性能优势的最根本原因。

  TigerGraph还进一步简化了工作负载的处理,带来了大规模集群处理能力。TigerGraph的图数据库解决方案,具有批量导入的性能特点,每台机器可以每秒实时加载,能快速更新几千个点和边,可以满足图算法和存储需求;TigerGraph 的产品具有实时分析能力,能在亚秒时间里执行 10 多步查询,大大提高了数据分析的时效性;TigerGraph提供的解决方案,能深度理解复杂业务场景需求,可以支持数据图谱相关的完整工作流。在大数据时代,可获得的数据越来越多,单机容量有限,只有具备一定存储和查询能力的图数据库,才能从根本上满足用户在性能、容量、计算以及灵活扩展方面的需求,TigerGraph在简化应用以及可扩展性方面,做了大量创新。

  时代在发展,数据库也在不断演进,传统关系型数据库一统天下的时候,没人想到NoSQL、NewSQL会出现。现如今的图数据库,正走着NoSQL、NewSQL走过的路;只不过,图数据库更能代表未来!

  5-10后取代传统关系型数据库

  “5-10年后,图数据库可能会彻底取代传统关系型数据库!” 郁介斌博士给出一个大胆预测,他认为所有关系型数据以及非关系型数据,都可以用图谱来表达,因为灵活性是推动图数据库激增的关键因素。尤其遇到多对多、高价值关系以及有大规模低延时需求的场景,图数据库带来了无与伦比的差异化优势。

  多对多场景:在《设计数据密集型应用程序》一本书中提到,如果问题中频繁出现多对多的关系,建议使用图表,因为关系型数据库难以处理好这些关系。比如:在金融业务领域,有一个反洗钱的交易,从A到B,B到C,C到E,E到D和F,D又到B。洗钱的过程更像是一个环,每一笔交易点都会关联两个人,如果把交易都记录在一张表格上,这叫关系型数据,我们很难看出这个环,因为每个数据都是独立的。如果跳出表格,从节点来看,假如每一步操作都相同,我们很自然地看到整个链路过程,这就是图来表达的数据形式。尤其在跨度很大的反洗钱行动中,交易数据急剧增加,表格计算根本检测不出来,而图数据库能快速识别和防范多样化的欺诈行为。

  高价值关系:如果数据元素之间的关系与元素本身同样重要,甚至更重要时,图表是最佳选择。比如:在疫情防控状态下,人员、职业、出行、餐饮、住所等信息,形成了错综复杂的网络关系,如何把健康人员、确诊人员、疑似病例、地址、交通、医院等各种关联关系进行数据建模,传统关系型数据无法实现。而图可以从错综关系中,找出数据源头,筛选出确诊患者,并分析出病毒源头,以对其进行持续、定向的关系探索,最终阻断传染源。从某种角度来说,疫情防控可能是图数据库取代关系型数据库的又一个有力证明。

  大规模低延时需求:如果在应用程序中添加另一个数据库,会增加应用程序的复杂性,图数据库能比其他数据库更快地处理大型数据集所表示的关系,尤其在复杂的连接不再执行时,并且在查询或者关系结构再不能优化的情况下,也是图数据库取代关系型数据库的最佳时机!

  无论从哪个角度来看,图数据库正在迎合大数据时代数据量的急剧增长以及业务复杂化需求,尤其当数据应用场景变得越来越多元和细分,图有着天然的“包容力”。当图数据库走向飞速发展的状态,TigerGraph也真正迎来属于自己的高光时刻。TigerGraph的应用案例虽然已遍布各个行业,但公司并不满足于眼前的成就,依然在“创新”和“持续优化”的征程上继续加码。为了不断优化用户体验,TigerGraph正在加大人才招募以及技术研发投入的力度。

  后记:与图数据库的不期而遇

  TigerGraph成立于2012年,由华人科学家许昱博士创立,公司位于美国加利福尼亚的红杉市,曾参与GSQL标准的建立。2021年2月宣布完成1.05亿美元的C轮融资,总融资额超过1.7亿。2021年6月份,TigerGraph官宣,正式成立圣地亚哥创新研发中心。2021年8月26日,TigerGraph宣布,曾负责Intuit 知识图谱项目的杰出工程师、架构师和技术总监郁介斌博士加入 “新战队”,担任圣地亚哥研发中心产品创新副总裁,未来将大规模招募技术精英,专注于核心技术研发。

  之所以选择圣地亚哥,是因为地理位置得天独厚,距离加州大学圣地亚哥分校比较近,可以吸引更丰富的教育资源和科研人才加入。研发中心就设置在学校附近,学生走几步路就到了。

  郁介斌博士本人非常优秀,是专注于数据库领域研发型人才,尤其擅长可扩展、分布式数据库系统的研发,曾在威斯康星大学麦迪逊分校(University of Wisconsin, Madison)获得计算机科学博士学位,拥有28项授权专利。他在读博期间的导师,是并行数据库的鼻祖之一,叫David DeWitt。David DeWitt,是麦迪逊威斯康星州大学的计算机科学专业主任,也是跟吉姆· 格雷(Jim Gray)一起开创并行数据库的重要发起人。

  郁介斌博士在美国财务软件巨头公司Intuit有着18年工作经验,主要负责打磨其核心产品Quicken。从2014年开始,郁介斌就开始致力于图数据研究。那时候,他带一个研究生在做一个创新项目,由于财税系统比较复杂,所以他开始关注知识图谱,希望能实现业务流程的自动化。

  大概在2019年前后,公司总设计师找到他,说能不能重构所有底层架构,把数据库、数据以及大数据,全部自然地整合在一起。这时,TigerGraph开始走入他的视野,经过综合比对,只有TigerGraph能满足他们在规模化部署和可扩展性方面的需求。之后的几年时间,郁介斌博士一直带领整个团队在使用TigerGraph,并坚信图数据库是数据库发展的未来趋势。

  显然,与其只是一个应用者,等待着图时代的改变,不如去作一个“掌舵者”,更过瘾。郁介斌博士的心里,早就种下了一个关乎图梦想的火种,他希望有生之年,可以凭借自己的力量,改变世界,拥抱全新的未来。所以,当TigerGraph伸出橄榄枝时,他没有丝毫犹豫,他迫不及待地想参与到更具创新力的技术洪流中。郁介斌博士大胆断言,未来5-10年后,图数据库会一统天下,他不在乎是否打脸,至少曾经努力过!

  未来,图数据库将如何发展?谁最能代表前沿技术趋势,TigerGraph专注与专业的“工匠精神”,让我们有理由相信,圣地亚哥的图数据库创新中心会翻开崭新的一页,创造图时代的下一个辉煌!

  想了解更多关于TigerGraph图数据库技术干货,可关注2021年10月20日的Graph + AI中国峰会。届时,您不仅可以获得图技术如何与AI、机器学习紧密结合的一手信息,还可以与包括郁介斌在内的世界最顶尖级技术牛人,一同探讨欺诈检索、反洗钱、知识图谱、供应链管理、客户360、统一ID、网络分析和个性化推荐等前沿技术和最佳实践。

  参加Graph + AI中国峰会,请点击报名链接:https://uao.so/sww6befafb2

0
相关文章