数据库 频道

Katana Graph认为大图工作负载需要大的云硬件

根据Gartner的数据,到2025年,80%的数据和分析创新都将使用图技术,比2021年的10%将有大幅增长。Katana Graph是希望在这个蓬勃发展的市场中分得一杯羹的公司之一,它正在通过开发一个能够利用分布式硬件的进步来压缩大型图形工作负载的图数据库平台,为自己开辟一个位置。

Katana Graph由德克萨斯大学奥斯汀分校的两位计算机科学教授、首席技术官Chris Rossbach和首席执行官Keshav Pigali于2020年共同创立。Rossbach曾是VMware研究小组的成员,他的学术研究集中在虚拟化、加速器和并行架构等领域,而Pigali专门从事并行编程和分布式计算。

虽然这家位于奥斯汀的公司相当年轻,但Katana Graph的图数据库技术来源于其联合创始人几十年前的研究,该公司的首席业务官Farshid Sabet说。

“公司的价值体现在数据较大时。当你必须做非常深入的分析时,当你通过节点并做更深的跳转时,计算强度会呈指数增长。”Sabet说。

分布式图

Katana Graph的分布式并行计算框架由三部分组成,包括一个流式分区器、一个图计算引擎和一个通信引擎。分区器负责将数据分配到集群的各个节点,而计算引擎负责协调和安排各节点的工作。同时,通信引擎使各节点能够有效地完成工作。

Katana Graph为图数据带来多个引擎(图片来源:Katana Graph)

在加入Katana Graph之前,Sabet曾在Movidius和英特尔工作过,他说,该公司对如何很好地建立一个分布式图形数据库的问题有了新的认识。他表示这使得Katana Graph能够以图形竞争对手无法比拟的规模和速度工作。

“很多人在划分图形方面采取了一种简单的[方法]。”Sabet告诉Datanami,“但随着图的规模越来越大,新的案例不断出现,其中一些假设并不成立。”

Sabet介绍,公司的核心知识产权存在于框架的图通信部分,这一层面的进步使Katana Graph能够高速运行非常大的图形工作负载。Sabet说,它们还使该平台能够以数据流风格同时运行不同的工作负载,类似于Databricks的运作方式。

Katana Graph提供了四种查询图中数据的方式,包括Graph Queries(上下文搜索);Graph Analytics(路径查找、中心性和社区检测);Graph Mining(模式发现);以及Graph AI(预测)。

开发人员可以在Katana Graph中使用Cypher对工作流程进行编程,Cypher是最初由Neo4j开发的图编程语言,后来被开源。许多图数据库供应商支持Cypher。Katana Graph还支持Python和C++,Sabet说。

硬件提升

Sabet介绍,Katana Graph可以利用不同类型的硬件,包括CPU、GPU、FPGA和ARM芯片。该软件还可以支持英特尔的Optane内存和加速器。但Katana Graph的分布式性质使它与众不同。

“我们在过去九年里做了很多工作……能够利用分布式内存,甚至一些不同类型的内存,”Sabet说。“这些[图形]环境中的大多数只在CPU上运行,在这个存储器中。Nvidia有一些东西可以在一个GPU和一台机器中运行。如果你想把这些结合在一起[以实现可扩展性],那么唯一的方法是不仅要支持多种硬件,还要支持统一处理图形的分布式硬件。”

据Sabet说,Katana Graph的核心技术最初是在UT-Austin的高性能计算(HPC)基础设施上开发和测试的。这些机器有大量的内存,这在十年前是非常昂贵的,但对于解决高端科学和技术问题是必要的。

随着内存成本的下降,特别是在公有云环境中,它为用户运行分析和人工智能工作负载提供了新的可能性,而这些工作负载在以前的商业领域成本高昂。这对Katana Graph有利,它已被证明可以扩展到256个节点和超过35亿个节点和1280亿条边的图形(该公司说,它被设计为可以扩展到1万亿条边)。

“图形确实是计算和内存密集型的,”Sabet说,“10年前、12年前的超级计算机,就是我们今天的服务器。这就是为什么公司在这方面做得非常好。”

十几年前,许多开发人员都在研究如何降低应用程序的CPU内存。“这在12年前是正确的决定,”Sabet说。“但是这些人[Rossbach和Pigali]并没有这种限制。他们考虑的是我们需要什么才能解决这个问题。”

GNN不断增长

Katana Graph的一个优势是开发人员能够将他们已经使用XG Boost和PyTorch等框架构建的机器学习和AI模型纳入Katana Graph平台,Sabet说。

“我们可以将所有这些结合起来,而不需要你改变任何东西或重新修改算法。你使用那些现有的框架,现有的库,并在[你的]机器学习之上添加,”他说。“你要确保开发人员对他们所拥有的环境感到满意。”

图形神经网络,或称GNN,结合了深度学习和图数据库的力量,是目前一个特别令人感兴趣的领域。与训练卷积或递归神经网络来识别图像或字串中的模式不同,GNN可以识别和利用构成图的数据元素的连接性模式。

他说,GNN的准确性、性能和成本优势目前正在获得大量的追随者。例如,生物医学研究人员可以使用在Katana Graph中运行的GNN来识别新的蛋白质,这些蛋白质在图数据库中被表达为一个错综复杂的分子集合。“你训练它去寻找那个蛋白质组,”Sabet说。

Sabet介绍,除了生物医学研究人员之外,Katana Graph还吸引了金融服务领域的兴趣。欺诈检测是一个典型的图数据库用例,Katana Graph在这些领域中占有一定的份额。

“有很多技术可用于欺诈检测。但这个可以预测可能发生的欺诈行为,而且准确度更高,”他说。“他们想要机器学习算法的更新版本,如XGBoost和其他技术”。他指出,GNN提供了这种更新的版本。

Katana Graph的第三个重点领域是网络安全。由于互联网上有如此多的网络信号在飞舞,图形分析带来了一个强大的工具,可以帮助人们连接这些点,并让不怀好意者保持警惕。Sabet说,该公司的成立部分得益于与DARPA的合作,将这些信号整合在一起。

Katana Graph有一些付费客户,并有一个不错的渠道,可以获得更多的客户。该公司在2021年完成了2850万美元A轮融资。据Sabet说,这使公司在一年内从不到20名员工发展到近100名员工。

“我们有来自各个不同领域的专家在[加入公司],”他说。“大多数员工都是工程方面的,但商业方面也一直在增长。我们已经能够从我们的竞争对手[如]TigerGraph、Neo、谷歌和微软那里聘请到非常有能力的人。”

该公司的软件目前只在云端使用,公司计划很快推出云端管理产品。

原文i链接:https://www.datanami.com/2022/06/02/big-graph-workloads-need-big-cloud-hardware-katana-graph-says/

0
相关文章