数据库 频道

GQL标准千呼万唤始出来,对图数据库市场影响几何?

GQL标准千呼万唤始出来。

4月12日,国际标准化组织(ISO)与国际电工委员会(IEC)共同发布了一项数据库国际标准——图查询语言标准 GQL(Graph Query Language)[1],标准编号为 ISO/IEC 39075:2024。

GQL标准是SQL标准的姊妹篇,是 ISO 发布第一版SQL 37年后又一个数据库查询语言的官方标准,GQL的推出无疑是据库圈近40年来的一件大事。

自2019年隶属ISO/IEC联合技术委员会1(负责制定IT标准)的全球诸多国家性标准机构表决通过GQL项目提案,到如今GQL标准推出用了5年的时间,这需要各参与方进行充分的论证。

专家介绍,GQL在发布为IS(International Standard)前的最后两个阶段依次是DIS(Draft International Standard)、FDIS(Final Draft International Standard)。DIS经投票通过后成为FDIS,FDIS经过更大范围的投票通过、经ISO秘书处核准,发布为IS。

在DIS的讨论过程中,编辑们基于paper讨论、修改了GQL的Schema定义、语句示例、与PGQ的Pattern Matching对齐等方面来帮助GQL更严谨和完善。FDIS版本(2024年3月份版本)和正式的IS版本的差别仅是一些行文修改,比如文本内容修订、首页尾页的说明,不涉及到技术内容的修改。

此外,除了一些主流图数据库厂商参与到标准制定中,LDBC也有一个LEX工作组深度参与其中。自去年开始,LDBC就在为 GQL 的落地做工作,包括开源了 ANTLR grammar 、GQL Code Editor、Railroad Diagram,组织工作组撰写 GQL TCK等,这些都方便了厂商对于 GQL 的实现。

专家介绍,参考SQL的发展历程,GQL标准从推出到成熟稳定预计会经历多个发展阶段。

首先,在概念和需求阶段,GQL明确行业需求,提出创建标准的必要性。接着进入初步设计和草案阶段,形成初步草案并进行讨论和评估。然后,标准会公开征求行业反馈,根据反馈进行修订和完善。在正式发布和推广阶段,GQL将被广泛宣传和采用,制定培训和支持材料,推动厂商和开发者遵循标准。随着各大厂商在产品中实现GQL,用户在实际项目中应用标准并反馈问题。随后进入迭代和完善阶段,这也是最重要和漫长的阶段,GQL会根据反馈和技术发展进行多次修订,发布新版本,不断改进和扩展功能。最终,经过多次迭代和广泛应用,GQL标准会逐步成熟和稳定,成为行业的广泛共识和基础。每个阶段都需要广泛的行业参与和反馈,确保GQL能够真正满足用户需求并推动技术进步。

目前ISO/IEC GQL 处于标准推广和早期采用阶段。一些主流图数据库产品已经宣布支持GQL。但业界整体采用率还有待提高,与 SQL 在关系型数据库领域的统治地位还有很大差距。这需要标准制定组织、行业协会、各大厂商共同努力。

作为 1.0 版本,现有的GQL 标准在功能覆盖上可能还不够完善,与实际复杂的图数据查询场景还有一些 Gap。比如对于图算法、路径查询等高级功能的支持还有待加强。因此标准在未来一段时间内可能还会频繁迭代,以更好地满足业务需求。

GQL 标准的发布,无疑开启了图数据库发展的新篇章。GQL 标准对图数据库的发展会产生哪些影响?该如何跟进这一标准?我们采访了相关专家。以下是他们的精彩回答:

GQL标准的推出对于图数据库的发展会产生什么样的影响?

1、中国软件评测中心信发事业部主任 翟艳芬

类似SQL对于关系型数据库,ISO-GQL标准的发布,我认为对图数据库的规范化发展有着重要意义,更加有利于图数据库的推广和应用。

一是标准化的查询语言使得数据管理更加系统化、规范化,有助于规范市场,加强了不同图数据库的互操作性,从而促进了健康的市场环境和更广泛的技术发展。

二是统一的查询语言对于构建健康的图数据库开发生态有非常大的促进作用。现在主流的图数据库查询语言有Cypher、Gremlin等多种,对于开发者和用户来说,学习成本较高,统一的查询语言降低了学习成本和使用门槛。

GQL标准是这个行业走向规模化成熟化的标志,有很好的引领和指导作用。

2、Fabarta科学顾问 Min WU

ISO-GQL 标准的推出对于图数据库的发展会产生积极正面的影响,具体体现在以下几个方面:

• 统一查询语言,降低复杂度,降低学习和使用成本,便于推广图数据库的应用。

• 促进图数据库产品的成熟与互操作。有了统一的查询语言标准,不同厂商的图数据库在功能、性能等方面的差异会逐步缩小,产品会更加成熟完善。同时数据在不同图数据库之间的迁移、交互也将变得更加容易。

• 有利于图数据库生态的发展。围绕统一标准,会涌现出更多支持 GQL 的工具、框架和各种解决方案,从而推动整个图数据库生态的繁荣发展。

• 加速图数据库的产业化应用。统一标准让图数据库的接受度和应用门槛进一步降低,有利于在更多行业领域的实际应用落地,加速产业化进程。

• 使图数据库标准化、规范化。GQL 作为 ISO 国际标准,代表了图数据库技术未来规范化的方向。各大厂商会围绕标准来调整优化自己的产品,使整个图数据库市场更加标准化、规范化。

此外,GQL 标准实际包含了两个相关的标准:GQL 和 SQL/PGQ。其中 SQL/PGQ 定义了在 SQL 中调用图查询能力的规范,这意味着关系型数据库厂商可以更加容易地为现有产品集成图功能,为用户提供更全面、多元的数据管理解决方案。从这个角度看,ISO-GQL 标准的意义已经超越了单纯的图数据库范畴,它的推出将图技术纳入主流数据管理平台的演进路线,必将加速图数据库和图分析能力的发展,让更多的行业和企业从图技术中受益。

同时,GQL 查询语言标准的推出和普及,将大大促进图数据库技术的发展和应用,而随之产生的大量高质量语料和业务知识,又可以反哺大语言模型的训练和改进。这种相互促进、互利共赢的良性循环,将推动图数据库、查询语言标准、人工智能等技术的融合创新,为数据管理和分析领域开辟广阔的发展前景。

3、蚂蚁图计算TuGraph标准生态负责人 戚仕鹏

GQL标准的发布统一图数据库语言的使用,它帮助规范了图数据管理的模式,提高了数据处理效率,统一了不同系统上的软件接口,增强了软件的通用性,也降低了GQL的学习入门成本和门槛。

4、国际高性能计算与存储系统专家、图数据库专家及学者,嬴图CEO 孙宇熙

GQL 标准就这么低调的发布了,可以说是 近 40 年来的又一件大事儿。GQL 出台,标志着一个新的时代的到来。这也可以说是数字化转型的众望所归——转型不能只靠黑盒(不可解释)的 AI 来承载,GQL 代表着一种高维的、灵活的,甚至是白盒化可解释的数据建模、处理-分析能力。

5、星环科技图数据库高级研发经理 王志平

GQL标准的推出,会促进不同图数据库之间的互操作性。开发人员和用户可以使用相同的语言在不同的图数据库之间进行查询和数据操作,从而降低了迁移和集成的复杂性。其次,GQL可能会带来更多的工具和生态系统支持,例如客户端库、可视化工具等,进一步推动图数据库的采用和发展。

对于客户而言,GQL标准短期内影响不大。一是标准太新,需要时间去沉淀使用场景;二是图数据库属于底层基础设施,很多用户都是近几年才使用, 一般情况下不会轻易替换。

对于厂商而言,厂商自身支持的语言和GQL会共存一段时间,逐渐向GQL靠拢。但也同样会存在差异性,像SQL标准,这么多年的发展,还是存在数据库方言。

6、达梦图数据产品研发中心(蜀天梦图)负责人 王振宇

GQL标准的推出在图数据库领域实现了语法体系和风格的统一,减少了语法层面不必要的差异化,提升了跨数据库操作的便捷性。同时,GQL的设计充分考虑了可扩展性,为各个图数据库厂商提供了展现自身差异化的机会,通过自定义函数、扩展的图数据模型、性能优化和模块化扩展机制,GQL确保在统一性的基础上,各产品仍能保持独特性和竞争力。

这种统一与差异化的结合,为图数据库技术的持续创新和广泛应用奠定了坚实的基础。统一的标准为开发者提供了一个稳定且一致的开发环境,使得用户能够更专注于新功能和新技术的研究与开发。统一的标准降低了技术壁垒,促进了更多企业和开发者进入图数据库领域,从而推动了整个生态系统的繁荣。同时,差异化的设计确保了市场竞争的活力,各厂商通过不断创新来满足用户多样化的需求。

7、海致星图图数据库专家 王铮

• 统一的查询语言:在GQL成为标准之前,不同的图数据库系统使用不同的查询语言,这使得迁移和学习成本非常高。GQL的标准化提供了一种通用的语言,使得不同的图数据库产品之间有了一种共通的交流方式,极大地促进了各种图数据库技术的普及和应用。

• 跨平台操作的便利性:由于GQL是一种标准化的语言,开发者可以编写一次查询语句,然后在多种图数据库系统上运行,无需为每种图数据库定制代码。这种跨平台的便利性显著提高了图数据库系统的灵活性和开发效率。

• 技术创新和发展:GQL标准的设立可以有效促进图数据库技术的竞争和创新,图数据库厂商在遵循标准的基础上,不断推出支持GQL的新功能和性能优化,以提升自身产品的市场竞争力。

• 教育和培训:GQL作为一种标准化的语言,可以极大地方便教育和培训的进行。学习者只需要掌握一种语言,就可以操作多种图数据库,这降低了学习门槛,并且使得图数据库相关的技能更加通用。

• 支持复杂的数据操作:随着GQL标准的不断发展和完善,它支持的数据操作也越来越复杂,包括复杂的查询、事务处理、错误处理等。这使得GQL能够满足从小型应用到大型企业级应用的各种需求。

现有的图数据库产品如何跟进 ?

1、中国软件评测中心信发事业部主任 翟艳芬

从语法的亲缘性上看,GQL受到Cypher的影响更多,因此对于原本能较好的支持Cypher的图数据库来说,跟进GQL相对容易。对于使用其他查询语言如Gremlin或者自有查询语言的厂商来说,需要的改造幅度会更大一些。对于国内厂商来说,还是要加强对图数据库产品的解析层、存储层核心技术的掌握,这样面对一些标准和技术的发展,才能从容应对。

2、Fabarta科学顾问 Min WU

对于现有的图数据库产品来说,跟进支持 ISO-GQL 标准既有优势也存在一定的挑战和难点:

• 现有查询语言的差异。每个图数据库产品都有自己的查询语言,这些语言在表达能力、语法风格上与 GQL 存在差异。完全兼容 GQL,可能需要大量的迁移和改造工作。

• 性能优化的挑战。图数据库产品在自己特定的查询语言下,经过多年发展已经积累了很多查询优化和执行计划的经验。优化器面向新的 GQL 标准可能需要重新设计。保证 GQL 的查询效率,可能需要付出大量的性能优化工作。

• 内核架构的调整。某些图数据库的内核架构可能是针对自身查询语言特点设计的,深度集成。支持一套新的语言标准,可能涉及引擎内核的较大调整,对产品架构有一定冲击。

• 营销认知的重塑。原有产品在市场上已经积累了一定的口碑和认知度。全面转向新的 GQL 标准,可能在营销推广上需要付出新的努力。

• 生态工具的重建。围绕既有查询语言,图数据库厂商已经打造了一系列配套的工具和框架。全新支持 GQL,可能需要重新构建配套工具,投入较大。

• 人员技能的重新培养。研发、测试、售前售后等团队已经熟悉现有产品的查询语言。全新的 GQL 会带来学习成本,需要重新培训和储备人员技能。

尽管跟进 GQL 标准存在诸多挑战,但从长远来看,这是大势所趋,利大于弊。各图数据库厂商应尽早行动,制定路线图,分步骤逐步支持 GQL 标准。比如先以 API 方式提供,再逐步深入到优化器和执行引擎;对已有用户提供语言迁移工具,降低迁移成本等。目前,枫清科技( Fabarta )团队正在积极整合和测试 GQL 标准,并将其与大语言模型(LLM)技术深度融合,发展出一款支持图与向量融合的创新型多模态引擎 ArcNeural。通过将 GQL 标准与 LLM 进展相结合,为用户提供更加智能、高效、贴近自然语言的图数据查询体验。

3、蚂蚁图计算TuGraph标准生态负责人 戚仕鹏

GQL作为图查询语言标准,其严谨性和权威性是有国际共识的。图厂商们作为GQL标准的践行者,他们会演进产品支持GQL,更好的服务用户。比如当前 TuGraph 的图数据库产品均已支持 GQL 的查询,TuGraph-DB 于2023年9月发布的4.0.0版本中,已使用 GQL 实现了 LDBC SNB Interactive Workload 的查询。另一方面,图厂商也会参与到GQL的生态建设,会生产相应的内容帮助图的用户和开发者了解GQL的使用,引导GQL标准在图市场的落地和普及。更进一步的,图厂商也会将生产实践中的经验带回,帮助GQL迭代的更加完善。

4、国际高性能计算与存储系统专家、图数据库专家及学者,嬴图CEO 孙宇熙

和 SQL 被采纳与发展的路径类似,GQL 是个非常庞大的体系,不太可能有厂家一上来就100%全面支持(凡是这么说的,都在吹牛!)——GQL 1.0的版本里面甚至有很多“糟粕”——一些一定会在未来的版本中被修正、删减、拓展的功能。

GQL 在某种程度上是个大杂烩,很多厂家在施加影响力。另外,GQL 不可能体现出每个厂家图查询、图计算的所有特点,就好比 PL/SQL 直到今天还有些 SQL 标准没有的东西。同样,比如嬴图 UQL 中的一些特长(路径查询中的步间过滤器、剔环等功能)即便进入 GQL标准,其它厂家也很难实现,这是语言和底座本身之间是否能深度匹配的一个问题。

5、星环科技图数据库高级研发经理 王志平

现有图数据库产品根据模型主要分为属性图模型和RDF模型,隶属属性图模型的产品,其查询语言一般分为openCypher、Gremlin、或者自定义的查询语法。这些产品支持GQL的难度主要在于对历史语句的兼容和翻译,以及自定义函数/表达式的迁移。对于RDF模型的产品,支持难度会更高一点。

6、达梦图数据产品研发中心(蜀天梦图)负责人 王振宇

现有图数据库产品在跟进GQL标准时,需要考虑过渡周期和方案。可以通过多语言引擎、扩展语法树或调整语法,直至逐步符合GQL标准,同时更新文档和培训体系。应用系统更新时,可能涉及提供兼容性过渡方案,如转义或多语法兼容并存的版本,或者制定版本生命周期管理策略以避免高成本的替换。

难点在于过渡期间的兼容性问题,向前和向后兼容可能不平滑,且标准可能影响现有设计和功能,如schema、类型系统、查询优化器和算子下推等。此外,重新编制的文档、测试评估和培训体系也是一项挑战。过渡期后,系统将趋于平稳。最后,GDMBASE正在积极参与GQL生态建设,并逐步完善产品以支持GQL的相关配套工具链。

7、海致星图图数据库专家 王铮

GQL是一种高度标准化的语言,但各种图数据库系统往往有其特定的扩展。因此,图数据库系统在跟进支持GQL时,不仅要实现基本的GQL标准,还可能需要考虑如何支持或扩展特定的GQL方言以满足特定场景的需求。

GQL查询的优化是图数据库管理系统中最复杂的方面之一。图数据库系统在跟进的过程中需要开发高效的查询优化器,涉及复杂的算法和数据结构。优化器需要能够解析GQL查询,生成高效的执行计划,同时考虑数据的分布和存储结构。

GQL标准是不断发展的,标准的更新迭代会引入新的功能和改进。图数据库系统需要持续跟进这些更新,以保持其GQL支持的现代性和竞争力。

原有的主流图查询语言是否会逐渐淡出历史舞台?

1、中国软件评测中心信发事业部主任 翟艳芬

短期内不会有明显的影响,毕竟现有的用户使用最广泛的还是Cypher。已有的历史项目中使用的Gremlin等其他查询语言也不会马上被替换。得考虑业务和技术连续性。从长远来看,随着图数据库产品的成熟和GQL的推广程度,我认为在查询语言层面会越来越标准化,GQL作为一个国际标准也会越来越成熟。

2、Fabarta科学顾问 Min WU

原有的主流图查询语言如 Cypher/openCypher等在未来一段时间内还将继续发挥重要作用,但随着 GQL 标准的推出和逐步普及,从长远来看,它们可能会逐渐淡出历史舞台。这个过程可能会经历以下几个阶段:

• GQL 标准的推广期。在 GQL 正式发布后,需要一个过程让业界了解、接受并逐步采用这个新标准。在此期间,原有的图查询语言依然是主流,GQL 处于并存和补充的地位。

• GQL 与原有语言的并存期。随着 GQL 标准的成熟和完善,会有越来越多的图数据库产品开始支持 GQL。但在相当长的一段时间内,GQL 将与 Cypher、Gremlin 等并存。许多产品会同时支持多种语言,给用户提供选择。

• GQL 的逐步替代期。当 GQL 标准得到市场的广泛认可,并在功能、性能等方面逐步超越既有语言后,对原有语言的支持和使用会逐渐减少。新的项目和用户会优先选择 GQL。但对于一些遗留系统,可能还会继续使用原有语言一段时间。

• GQL 全面取代期。随着时间推移,当 GQL 已经成为事实上的行业标准,绝大部分图数据库产品都以 GQL 作为主打时,原有的图查询语言基本退出历史舞台。只有极少数特定场景可能还会有一些使用。

需要指出的是,这个过程可能需要较长时间,甚至可能长达 5-10 年或更久。一个成熟的技术语言要完全被新的替代,需要新标准展现出足够的优势,还需要生态、工具、人才等方面的支持。同时还要克服既得利益者的阻力。这需要市场规律的考验。

此外,人工智能技术的快速发展,尤其是 LLM的兴起,会从根本上改变人们与图数据库交互的方式。先进的 AI 系统可以理解用户的自然语言意图,并将其转化为图数据库底层需要的专业 DSL 语句来执行查询和分析。AI 技术的引入可能会进一步弱化不同图查询语言标准之间的差异的影响。普通用户将更多依赖自然语言,而专业标准可能会更多回归到特定的开发者群体中。

3、蚂蚁图计算TuGraph标准生态负责人 戚仕鹏

短期内,因为用户惯性、厂商适配成本、应用迁移成本的存在,用户会继续使用Cypher和Gremlin一段时间,这个时间取决于用户学习掌握GQL的速度以及厂商们的推广速度。但作为国际标准,随着标准逐渐铺开,可以预见用户和厂商都会收敛到ISO GQL上。

4、国际高性能计算与存储系统专家、图数据库专家及学者,嬴图CEO 孙宇熙

Cypher 很可能会长期存在,但是会向 GQL 靠拢,因为 Cypher 中有一些设计理念是存在问题的(不具备普适性),比如 label 的问题。至于 Gremlin,我想对于语言设计有洁癖和追求效率的同仁都会同意,这个语言的设计过于冗余,我认为它的生命力有限。

5、星环科技图数据库高级研发经理 王志平

趋势是长期共存,逐步替代。

Cypher已经拥有了广泛的用户群体和成熟的生态系统,任何新技术或标准的推广都需要一个漫长的过程,正如上面所说,对新用户没什么影响,而对于已建用户来说,现有应用场景会持续保留,对于拓新场景,可能还是会沿用cypher,这个具体得看用户评估厂商在切换过程中的影响情况,以及厂商在GQL语法方面的支持情况。

6、达梦图数据产品研发中心(蜀天梦图)负责人 王振宇

从技术角度分析,GQL具有语法统一性、标准化和良好的扩展功能等优势:

• Cypher语法以图模式匹配为核心,采用声明式方式编写,语法简洁直观,易于理解;在复杂查询中提供了图模式匹配、路径查询、子图查询等功能。

• Gremlin是一种基于图遍历的查询语言,采用函数式编程风格,查询通过链式操作实现,灵活但学习曲线较陡峭。

• GQL结合了类SQL语法和图模式匹配,又完全独立于SQL属性图标准(ISO/IEC 9075-16),以属性图为核心要素。其语法规范统一,易于理解和使用,设计时考虑了兼容性,吸收了Cypher和Gremlin等的优点,标准化了图模式匹配、路径查询、递归查询、事务管理等功能,并支持自定义函数、存储过程、动态类型等扩展特性,具有强大的可扩展性和灵活性,适用于复杂查询和操作。

从产品演进和市场角度分析,Cypher和Gremlin凭借其成熟度和特定优化,短期内不会淡出。现有语言在过渡期内仍将占据重要地位。GQL的推广需要时间和实际案例的验证,仍需经历不断的实践和完善,最终可能成为图数据库领域的主流标准,但这是一个渐进的过程。

过渡期间,各厂商产品的支持力度、稳定性与性能优化、生态完善、培训支持和技术推广等都是市场接受度的关键因素,这些因素也共同影响过渡的时间周期。同时,GDMBASE也正积极着手构建更好兼容GQL的新V4版本,以实现更全面的向前和向后兼容性。

7、海致星图图数据库专家 王铮

预测技术的未来总是具有挑战性的,特别是在不断变化的信息技术领域。然而,根据目前的发展趋势和市场动态,我们可以对主流图数据库查询语言的未来做出一些合理的推断。

GQL作为标准图数据库查询语言被提出后,会因以下两点而保持其重要地位:

• 广泛采用:主流图数据库系统的使用会为GQL的持续使用提供坚实的基础。

• 标准化和熟悉度:随着主流图数据库系统的支持,GQL会逐渐成为教育和培训中的标准组成部分,使得大多数图数据专业人员都熟悉GQL。

GQL逐渐扩展和Cypher/openCypher、Gremlin等图查询语言兼容融合,不断进化,以包括对新数据类型和新操作的支持,从而更好地服务于现代数据处理需求。

0
相关文章