随着云计算、大数据和人工智能等信息技术的快速发展,各行业数字化水平的逐步提高,企业业务环境和计算场景日益复杂,数间的关联关系也正在变得更加交错。
在面对需要深度挖掘数据间复杂关联关系的场景时,传统的关系型数据往往计算效率低下,难以满足应用需求。
在此背景下,图便有了大展身手的空间。这里的“图”( Graph )是针对图论而言,并非常见的图片/图形( Picture / Image ),而是指由一系列的点、边构成的图数据,能更自然、直观地表述数据间的关联关系,是一种更符合人类思考方式的抽象表达;图计算技术基于图数据开展分析和计算,从中挖掘出有价值的信息、知识和规律,为实际业务应用提供支持。
围绕中国图计算技术及应用话题, CB Insights 中国正式发布《2022中国图计算技术及应用发展研究报告》,通过科研端文献研究、产业调研与专家访谈等方式,从技术、人才、科研与产业四个维度展开分析,阐明行业发展背景、追溯技术发展历程、拆解技术原理及优势、勾勒行业格局,并研判图计算未来发展趋势。
图是对世界万物的一种自然表达
目前,图数据库和图计算系统(也称图计算引擎)是图计算技术领域的核心内容,前者主要负责图数据进行增删查改等操作,后者主要负责执行对图数据的深度分析处理。
图丨图数据库与图计算系统对比(来源:公开信息整理)
图数据库起源最早可追溯至上世纪面向树状结构和属性图的数据库及模型。
进入 21 世纪,第一款商用图数据库 Neo4j 公司于 2007 年成立,开始采用针对图结构进行优化的原生图存储模式,之后出现的其他图数据库如 CosmosDB 、 OrientDB 、 ArangoDB 等,开始朝着多模态、分布式架构等各个方向探索和发展。
而在图计算系统市场,早期业界常用通用型计算框架(如 MapReduce)等解决方案处理图问题,但它们在性能等方面尚不尽如人意。
2010 年,Google 提出了基于 BSP 模型的 Pregel 分布式图计算系统,与之前方案相比在编程模型、同步控制等方面提供了更优的解决方案;
之后 CMU(卡内基梅隆大学) Select 实验室提出了基于 GAS 模型的 GraphLab 系统,二者为后续其他图计算系统设计带来了深远的影响。
2015 年前,这一阶段的图计算市场依然以海外厂商为主。直至 2015-2016 年左右,随着应用市场逐步打开,国内图计算领域学术界和产业界开始发力,市场热度逐渐提升。
2016 年,清华计算机系师生陈文光、朱晓伟在 OSDI (USENIX Symposium on Operating Systems Design and Implementation)学术会议上发表了《Gemini:以计算为中心的分布式图计算系统》论文,提出了国内图计算系统领域重要成果之一的 Gemini;同时,一批具有深厚学术研究背景的优秀学者开始进入产业界,尝试将已有学术成果转化为落地应用。
不仅蚂蚁、阿里、腾讯等大厂开始根据自身业务需求切入图计算领域展开研究,市场上也涌现出了一批深耕图计算行业的垂直初创企业,共同展开对图计算领域的商业化探索。
从投融资情况市场来看,根据 CB Insights 数据,过去三年间国内外共有近 15 家企业获得了超过 20 笔融资。其中,海外知名图数据库企业 Neo4j 在 2021 年 6 月的 F 轮融资中获得 3.25 亿美元投资,成为数据库历史上最大的一笔投资。
此外,根据知名数据库排名网站 DB-Engines 的 Popularity 指数,按数据库类型来看,自 2013 年以来图数据库一直是受到最多关注的数据库类型,遥遥领先于其他类型的数据库,而且关注热度仍在持续攀升中。
图 | 各类数据库近十年来热度变化(来源:DB-Engines.com)
近十年学术研究热度迅速攀升
近年来图计算学术研究领域发展迅速,从 2014 年到 2021 年间,图计算领域论文数量呈现翻倍增长趋势,以中美两国学者为首。
图 | 全球图计算相关主题论文发表数量(单位:篇;数据来源:Web of Science)
目前,清华大学、北京大学、中国科学院以及华中科技大学等是国内图计算领域研究的先驱,贡献了国内大多数高被引用图计算论文。
下表为国内图计算领域的部分研究学者,主要研究领域横跨了图数据、操作系统、人工智能、大数据、分布式系统等,他们不仅在基础理论层面研究深耕,也在产业化实践方面不断更迭创新,助力图计算在大数据的沃土里生根发芽。
图 | 图计算领域部分代表研究学者 (数据来源:CB Insights 中国)
产业生态参与者众多,巨头和初创企业各施所长
现阶段,图数据库的参与者以产业界为主,图计算系统则以学术界和产业界企业的开源方案为主。
图数据库领域不仅有互联网/公有云厂商(如蚂蚁、腾讯、 AWS 、 Microsoft Azure 等),还有一众图计算领域垂直企业(如 Neo4j 、 TigerGraph 、创邻科技、欧若数网等)、传统数据库厂商( Oracle 、 IBM 等)也已经入局。
图丨图计算行业部分参与者(来源:CB Insights 中国)
图计算下游主要面向应用开发商和软件集成商,例如知识图谱开发商等。它们负责在图数据库及图计算系统的查询分析能力基础上,为客户提供完整的解决方案。
目前,图计算的终端客户主要集中在金融、能源、政企、社交网络、搜索引擎、推荐系统等领域。
例如,在金融风控领域,图计算技术可以帮助挖掘个体之间的关联关系,进一步发现潜在风险,在信贷风险评估、反洗钱、反欺诈、资金追踪、潜客发现等场景中,能帮助挖掘出企业间循环担保、薅羊毛灰黑产等重大风险;
在电力领域,图计算技术可以帮助更高效、实时地管理电力设备并监控其运行状态;在社交网络领域,图计算可以通过社区发现等图算法深度挖掘用户之间的联系。
图丨图计算产业链(来源:CB Insights 中国)
以蚂蚁集团为例。蚂蚁集团将图技术应用于自身金融风控业务之中,以应对日益复杂的风险形势,提高对于隐形的、有组织的团伙化犯罪风险的识别和挖掘能力。蚂蚁安全团队在图技术基础上建设了全图风控架构,作为应对复杂风险形势的下一代风控基础设施。
全图风控即全域一张图,在整个风控的生命周期,包括风险感知、风险识别、风险管控、风险审理、风险分析等环节中提供保障,提供团伙挖掘、资金链路识别、交易可信识别等核心服务能力。
此外,除了用传统的多度查询来进行风险链路判断外,还引入模式识别的方式(菱形/三角型等)、社区发现的算法等来应对更加复杂的场景。
目前,受制于整体市场对图计算技术的认知仍未成熟,图计算行业仍处于商业化初期阶段。
一方面,客户对图数据库及图计算技术认知不足,在如何理解图能带来的价值、如何进行图数据库选型、如何做好二次开发和持续运维等问题上,依然困难重重。
另一方面,图计算厂商对客户的业务场景不够了解,对于如何帮助客户明确需求,将客户业务场景存在的痛点转化为图的问题,如何在技术角度进一步提升产品力以更好地满足客户需求,如何将图技术应用到更广的领域等问题,未来依然有很大的潜在发展空间。
在商业模式上,企业面临着开源和闭源的选择,开源有助于企业建立开发者生态,快速迭代完善产品,闭源则可帮助企业保持商业现金流。
目前不少项目方选择通过 OpenCore 的模式开源,即核心模块开源、进阶版功能收费的模式展开商业化;另外也有部分厂商出于现有开源生态不成熟、产品竞争激烈等原因考虑,选择闭源策略。
目前,图计算领域知名的开源产品包括 Neo4j (图数据库)、 ArangoDB (图数据库)、 GraphX (图计算系统)、 GraphScope (图计算系统)、 Plato (图计算系统)等。此外,蚂蚁集团的大规模图计算系统关键底座 TuGraph 图数据库单机版,也在 2022 年 9 月的世界人工智能大会上宣布正式开源。
以图的角度来思考问题,用图的技术来解决问题
作为一种理解世界的新方式,图正凭借其对复杂关联关系的强刻画能力,赢得了越来越多的关注。
随着越来越多的行业和领域开始以图的方式存储、分析数据并展开更多应用,大规模图数据的查询和计算对系统的计算性能等各个方面提出了挑战,图计算技术正向着多(大规模)、快(低延时)、好(高可靠)、省(低成本)的方向探索。
对此,学术界和产业界的研究者对图计算部署架构、计算模型等方面的设计优化进行了大量的研究,例如分布式并行架构的优化、与高性能计算的合作等。
另一方面,以图神经网络 GNN 为代表的图学习,结合了图计算技术与机器学习技术,近年来也在人工智能领域掀起了研究热潮。
图学习通过将已有图结构数据与机器学习模型结合,以满足日益复杂的图计算需求,并试图解决过往复杂模型存在的可解释性低下等问题。从人工智能行业的角度来看,图学习体现了人工智能符号主义与连接主义两大流派的融合应用。
长远来看,对于图计算领域的众多学术机构和厂商来说,未来在图计算产业生态建设上还面临着诸多挑战,有待学术界和产业界长期的共同努力。
企业需要提高客户对图计算技术的认知水平,帮助已经习惯以关系型数据模式理解业务的一线人员顺利理解图数据并开展应用,也让更多的企业意识到可以用图解决业务中现有问题;同时需要校企联动,培养出更多优秀的图计算领域研究学者和开发运维人才;在底层能力基础上建立起完善的工具和应用生态,打开更广阔的应用场景。
此外,图计算领域的标准化体系仍有待完善,目前在查询语言、产品测试基准等方面已经开始逐步建立中。