数据库 频道

当红炸子鸡图数据库商业化落地“鸡肋”?

图数据库是什么?几年前,有开发者误以为是存储图片的数据库。如今图数据库已经成为数据库领域的明星,吸引巨头布局,受到越来越多的人关注以及资本青睐。激进者甚至认为,“NoSQL和NewSQL都不是真正的下一代数据库,关系型数据库后真正的下一代数据库是图数据库。”

然而,有些人指出图数据库虽然火热,但是商业化落地“鸡肋”,谈来谈去说的最多的还是金融领域的落地,仍是小众。

图数据库市场现状如何?有多大前景?有哪些机遇和落地挑战?本文将进行探讨。

来势汹汹的图数据库

年初,在某职场社交平台上,有人询问图数据库和时序数据库哪个更有前景,引发讨论,毫无疑问,这是两个时下最热门的数据库种类。DB-Engines网站数据显示,图数据库成为近十年来最受欢迎的数据库,紧随其后的是时序数据库。

图1

图数据库以图论为理论基础,使用图模型,将关联数据的实体作为顶点(vertex)存储,关系作为边(edge)存储,解决了数据复杂关联带来的严重随机访问问题。有人指出图数据库与传统关系型数据库是图和表的差别,图数据库是用点和边来表达数据之间的关系,更专注于对象之间的关联。

按照数据模型分类,图数据库属于NoSQL的一种。千禧年互联网的发展带来数据量激增和数据种类多元化发展,催生了NoSQL数据库的发展。

2007年第一款商用图数据库Neo4j在瑞典成立公司,开启了图数据库商业化探索之旅。同年,iPhone手机面市,打开了通往移动互联网时代的大门,“云大物移”等新技术的发展使得很多领域积累了大量图数据,据悉,Facebook的社交网络在2011年已超过8亿顶点。表达数据关系的图数据库顺势而起。图1中DB-Engines数据库流行度变化趋势可以看到,图数据库自2013年起海阔凭鱼跃,来势汹汹。

蚂蚁集团图数据库TuGraph负责人洪春涛指出,引起图数据库快速发展主要有以下几个原因,一方面大数据技术走向成熟,形成大量数据积累,使得数据之间的关联关系变得更清晰,从而为关联数据的应用奠定了基础。另一方面,大数据技术大规模应用之后,使用简单模型获得的收益越来越小,促使企业开始寻求使用更复杂的关联模型来改进业务效果。再者,数据和业务需求的发展也推动了技术的发展,经过十多年的发展,图迭代分析系统已经基本成熟,图数据库方面也涌现了一批不错的产品。

图数据库的发展在2017年迎来重要的里程碑,亚马逊在这一年推出图数据库Neptune,巨头的加入证明图数据库是一个有前途的市场。同年,国内第一家商业图数据库公司创邻科技成立,拉开了国产图数据库商业化发展序幕,如今已有近20款国产图数据库产品。

在图数据库发展过程中,老牌数据库厂商也做了布局,比如,Oracle推出Oracle Spatial and Graph,国内传统数据库厂商达梦成立子公司推出图数据库产品蜀天梦图GDM等。

资本为图数据库领域送来大量弹药助推市场发展,2021年初,TigerGraph完成1.05亿美元融资,6月,Neo4j获得3.25亿美元的F轮融资,成为数据库史上最大单笔融资,Neo4j投后估值达20亿美元,将图数据库的发展推向一个小高潮,Neo4j联合创始人兼CEO Emil Eifrem 甚至认为这是数据库市场的一个转折点。

需求、技术、资本各方的推动,使得图数据库成为当红炸子鸡。在去年DTCC数据库技术大会上,图数据库专场受到广泛关注,会场满座之余仍有不少人站着听讲。一位嘉宾演讲结束后,有参会者问起了求职机会。

资本和人才流向哪里,哪里就有未来。研究机构也给予了好的预期,Gartner的分析师预计,到2022年,企业图形处理和图形数据库将以每年100%的速度增长,到2023年,将促进30%的组织的决策。市场调研机构Reports and Data最新数据指出,2027年图数据库全球市场规模将达74亿美元。

然而,在热火朝天的图数据库另一面,我们也看到仍然有求职者会犹豫,也有业内人士吐槽,图数据库商业化落地“鸡肋”,仍是小众,这么多年谈得最多的还是金融领域。是这样吗?

商业化落地探索更多场景

不像文档数据库、云数据仓库已经有跑出来的上市公司,图数据库赛道经过近20年发展,还没有独立的上市公司,市场还处在培育耕耘期。甚至说方兴未艾都有点早,算不上“兴”。但如一位图数据库创业者所说“还是有进步,至少谈到图数据库不会认为是存储图片的数据库了。”

在众多图数据库参与者中,有出于自身需求而入局的大厂,首要落地场景是企业自身业务,比如Twitter推出FlockDB,Twitter使用FlockDB来存储社交图(谁关注谁,谁屏蔽谁)和二级索引,国内字节跳动推出ByteGraph,应用于抖音、广告、推荐、风控等产品线,目前还未对外商用,蚂蚁集团TuGraph用在支付宝等业务,已经对外商用。

目前,图数据库在金融领域落地最广泛,而且有不少国内图数据库厂商从金融业切入,或者重点发力金融业。这不难理解,一方面,金融业数字化水平高,数据量大,数据准备充足,有适合图数据库落地的众多应用场景。比如反欺诈、反洗钱、信用卡追逃、股权穿透等。另一方面,金融业普遍有钱。

如在反洗钱方面,据估计,全球洗钱交易占全球GDP的2%至5%,即每年约1-2万亿美元。随着犯罪分子使用更高超的洗钱手段,如今,许多机构能够获得有助于揭示非法活动的数据,但却无法将数据与其中的关系联系在一起,关系型数据库在关联查询方面存在瓶颈。

根据信通院《图数据库白皮书》,当数据规模变大且数据间关系随之变得复杂时,使用关系模型检索时需要多个表的属性执行连接操作,数据写入时也需考虑外键约束,从而导致较大的额外开销,产生严重的性能问题,因此传统关系型数据库更适合实体联系为一对一或一对多的应用场景。而图数据库则在处理复杂关系上有着天然优势,在海量数据的多对多的复杂实体联系场景中有着异常突出的性能表现。

来源:信通院《图数据库白皮书》

金融业的反欺诈、反洗钱场景数据量大,关系复杂,且需要深度查询,是图数据库的典型用武之地。实际上,除了金融业,在其他行业图数据库也有不少应用场景。比如,电信行业,图可以和机器学习结合,帮助客户进行电信反欺诈,实时识别出欺诈电话;能源行业,可以构建电网一张图,进行潮流分析;通用行业,图可以进行数据治理中的数据血缘分析、实体解析;供应链领域的上下游分析进行风控管理等。

专家们一致认为,图数据库发展还在起始阶段,处在技术爆发前的前夜,推进商业化落地还有很多需要完善的地方。目前图数据库落地场景还处于探索的阶段,在具体场景当中,会用到哪些算法,需要哪些特性,用户事先并不知道,有些行业已经有明确用途,有些行业下定论还有点早。

与关系型数据库相比,图数据库目前仍是小众。在体量上根本不是一个量级,根据Gartner的数据,关系型数据库市场 2018年达到375亿美元,且仍然保持10%的快速增长。

图数据库应用在新业务场景,也可以替换部分关系型数据库场景。从业者对图数据库与关系型数据库的关系拥有不同态度,Neo4j首席科学家Jim Webber接受IT168&ITPUB采访时强调,图数据库是一种通用型数据库,“基本上原本用关系数据库实现的项目或者方案,80%都可以用图数据库来实现。”TigerGraph圣地亚哥创新中心负责人郁介斌在去年接受采访时更为激进地指出,“5-10年后,图数据库可能会彻底取代传统关系型数据库!”他认为关系型数据库后真正的下一代数据库是图数据库。欧若数网PD & CR吴敏对图数据库的发展保持乐观,但没有那么激进,他认为图数据库市场和关系型数据库市场没有多大重叠,也没什么竞争关系。

洪春涛的观点相对温和,他认为,从表达能力上来说,属性图模型可以覆盖关系数据模型。因此关系数据模型能表达的逻辑,用属性图都能表达。如果图数据库足够成熟,从技术上可以替代关系型数据库。不过,关系数据模型已经是一个深入人心的模型,对现有的很多问题,关系型数据库都有成熟的解决方案。因此对一些已有问题,关系型数据库都会是更低成本的方案。“图数据库会替代掉部分关系数据库,最终市场份额一定比现在大,但不会完全替代掉关系数据库。”洪春涛强调。

技术逐渐走向成熟

在技术层面,根据信通院《图数据库白皮书》,经过十多年的发展,图数据库已经历了底层存储、架构等技术方面的重大变革,由最初的单机图数据库向分布式大规模图数据库发展。

Graph1.0时代(2007年-2010年):小规模原生图存储。以Neo4j为代表,采用原生图的方式实现了图存储,获得了比关系型数据库快得多的复杂关联数据查询性能。

Graph2.0时代(2010年-至今):分布式大规模图存储。随着大数据和物联网的蓬勃发展,数据本身的丰富程度增加,数据之间的关联性增多,扩展性成为数据库行业共同的痛点,分布式架构的兴起催生了很多的分布式图数据库项目。在这一发展阶段,支持分布式大规模图存储是关注的重点,图存储是否以原生的方式实现,不再是那么重要的问题,例如OrientDB 选择了支持原生图存储,自研了分布式图数据存储模块,而JanusGraph则是在其他数据库(Cassandra、HBase等)之上封装实现图的语义。通过支持在通用硬件上进行水平扩展(ScaleOut),分布式图数据库具备了在海量关联关系数据的存储与实时深度查询上绝佳的性能。

在去年DTCC大会图数据库专场中,嘉宾们不约而同讲到万亿大图以及大规模图处理问题,这是当下图数据库技术发展的热点和难点。目前,图数据库还是比较新的领域,落地场景探索需要一个过程。专家们认为,图数据库的发展还存在一些挑战需要解决:

·技术挑战——满足据据的完备性、一致性,分布式事务的支持以及 OLAP 和 OLTP 融合等。

·生态挑战——生态发展不够成熟。一方面图数据库行业缺乏标准,查询语言ISO GQL预计还需要一年左右才能发出第一个标准,这也导致生态发展更慢。另一方面,人才储备不足,市场上很难找到能把业务问题抽象成图问题的人才,运维人才也不足。

·配套工具——需要大量配套工具。

·安全和隐私挑战——图数据库在安全和隐私方面可能会有困难。需要实施更严格的安全和访问措施。由于图数据库更倾向于映射关系,随着各国对数据隐私保护越来越重视,相关法律法规陆续推出,这种结构可能会引起隐私问题,例如揭示一个客户或顾客以及与他们有关的每一个其他潜在客户或顾客的更多裸露视图。实施图数据库的企业应该格外小心,以确保这些数据库的访问方式和数据库本身的安全。

·数据完整性影响——图数据库简化了信息之间的关联方式。在此过程中,通过缩短或压缩关系(与遍历关系型数据库中的许多表相比),图数据库中的所有数据都要准确,这一点尤为重要。一个不正确的对齐关系可以直接导致不正确的数据,而在关系型数据库中,不正确的数据可能会在嵌套查询期间遇到障碍,抛出错误,然后解决问题。因此,在使用图数据库时,数据完整性显得尤为重要。

国产图数据库的机遇

虽然国内第一家商业图数据库成立时间较海外晚了十年,但站在技术爆发前夜,海内外图数据库的发展基本处在同一起跑线上,参与GQL制定,解决大规模图处理的挑战,甚至在某些领域如与新硬件融合方面,国内处于领先地位。截止2022年5月12日,DB-Engines收录了37款图数据库,其中有5款国产图数据库上榜,包括欧若数网Nebula Graph、百度智能云HugeGraph、华为云GraphBase、创邻科技Galaxybase和星环科技StellarDB。

如海外图数据库市场一样,国内图数据库江湖大概有巨头、创业公司、学院派、传统数据库厂商、跨界厂商五类,巨头多是出于自身业务研发,比如百度智能云的HugeGraph、蚂蚁集团TuGraph等;创业公司如欧若数网Nebula Graph、创邻科技Galaxybase和星环科技StellarDB等;学院派中科院孵化的中科知道PandaDB和北大的gStore;传统数据库厂商如达梦蜀天梦图GDM;跨界厂商如国家电网推出的电力专用图数据库GridGraph。

不同阵营各有千秋。有专家认为巨头自身有成熟的业务,在图数据库领域会有不少竞争力。创业公司在产品和技术方面深耕,打造壁垒,且能够快速进行创新迭代,但需要找到对应的市场和目标客户。

值得一提的是,国内图数据库市场已经出现了整合。2020年蚂蚁集团收购了费马科技,对产品进行整合,形成蚂蚁集团图数据库TuGraph,并对外开放商用。

由于更大的数据规模和业务复杂性,中国市场被视为前景广阔大有作为的市场,诞生了众多本土图数据库品牌,同时也吸引Neo4j、TigerGraph等来华开展业务。

对于数据库这样的基础软件,研发周期长,前沿技术攻克难,更需要产学研用多方合作。海外有的图数据库厂商在学术氛围浓厚的地方建立创新中心,方便与学术前沿交流攻克技术难题,也便于培养技术人才。国内图数据库正在通过产学研用多方合作共谋发展。

近两年开源成为数据库技术发展趋势,开源在生态建设以及真实场景打磨等方面有其优势。部分图数据库品牌选择开源发展。5月10日,百度宣布将HugeGraph捐赠给 Apache 软件基金会,成为 Apache 孵化项目,有人认为本次捐赠将促使国产图数据库走向世界。不过目前国产图数据库品牌选择开源仍是少数派,也有相关负责人表示“正在谨慎考虑开源”。

随着国内数字经济发展,信创浪潮下,对自主可控有更严格的要求,国产图数据库迎来新的发展机遇。如某证券公司建立自主可控的新一代一站式图谱平台,使用星环科技StellarDB替换了Neo4j。

国家政策层面也为图数据库的发展带来指引,去年工信部发布了《“十四五”软件和信息技术服务业发展规划》,明确提出关键基础软件补短板,在数据库方面要突破全内存高速数据引擎、高可靠数据存储引擎、分布式数据处理与任务调度架构、大规模并行图数据处理等关键技术。推动高性能数据库在金融、电信、能源等重点行业关键业务系统应用。

国产图数据库面临着国产化机遇,也会选择出海谋求发展。很多人相信,在中国这样一个场景足够丰富复杂,规模足够大的市场,似乎没有理由锻造不出世界前列的图数据库产品。

想要抓住历史机遇,国产图数据库更需苦练内功,打磨产品与技术,一同推动查询语言标准化建设,完善生态,构建差异化竞争优势。正所谓行者常至,为者常成。

参考资料:

中国信通院《图数据库白皮书》;

https:/ /www.g2.com/;

2
相关文章