海量数据爆发下如何挖掘数据价值成为每个企业的必修课,图数据库因在处理复杂关系方面有独特的优势,可以挖掘关系背后隐藏的数据价值,越来越受到关注。
目前,图数据库仍然是比较新的数据库类别,它与关系型数据库有哪些不同?有什么样的特点?在哪些行业,在什么场景有落地?IT168&ITPUB采访了亚马逊云科技相关专家,探讨了相关问题。
该专家认为图数据库的应用范围越来越广泛,但仍是小众。图数据库与时序数据库一样,都是应用于特定细分场景,不能指望一款数据库解决所有问题。
图数据库的应用更加广泛
千禧年后随着互联网的发展,企业的业务越来越复杂多元,NoSQL数据库应时而生,解决细分业务场景问题。图数据库以图论为理论基础,使用图模型,将关联数据的实体作为顶点(vertex)存储,关系作为边(edge)存储,以处理复杂关系见长,是NoSQL数据库的一种。
自2019年加入亚马逊云科技接触图数据库以来,该专家发现图数据库的应用发生了变化。此前,用户和ISV对图数据库并没有什么了解,近三年来,越来多的ISV主动研究图数据库,用图数据库去解决用户的问题。现在主动问Amazon Neptune和Neo4j有什么区别的ISV变多了,图数据库的应用领域越来越广泛。
比如欺诈检测预警,社交网络好友推荐,360全景用户画像(One ID),生命科学里的基因研究,保险行业的保单分析等,图数据库在这些场景中落地开花。
常见的有金融、电信、游戏行业的欺诈检测,比如金融欺诈检测场景,刷卡的人、POS机设备、时间、地点,所有这些信息都是金融风控欺诈检测非常重要的信息,而这些信息彼此之间都是有关联的。一些复杂的游戏,众多玩家的游戏账号拥有很多虚拟资产,在玩游戏时涉及不同账号之间的设备、装备、道具交易,游戏公司为了便于账号管理,避免出现注册大小账号进行虚假交易的欺诈行为,会使用图数据库进行欺诈检测行为分析。
社交网络推荐方面像Facebook、LinkedIn、抖音等都在用图数据库构建社交网络进行精准推荐。比如一个人登录LinkedIn时,每一次登录系统都会推荐显示出他可能认识的人,而且比较精准。这背后需要系统对社交图谱网络进行分析,他的一度好友、二度好友大概有谁,二度好友之间相互重复的有哪些,通过关联分析找出一个他最可能认识的人是谁,然后进行推荐。
电商领域将用户行为数据、商品数据等人货场的数据放到图数据库中,构建全景360用户画像,进行精准营销等,在国外被称为One ID,进行千人千面的个性化推荐。
总体来看,这些适合用图数据库的场景都有一个共性——关联关系复杂,“只要关联关系足够复杂,都适合用图数据库处理。”该专家说,他认为不同的行业对图数据库需求的的共性和差异在于,本身数据关系的复杂度有多高。这些都与图数据库本身的特性有关。
让图的归图,关系的归关系
随着图数据库的使用范围越来广泛,业内对图数据库的发展出现了不同的声音。有一些从业者认为图数据库会成为一个通用的数据库,可能会替代关系型数据库,或者能够替代大部分关系型数据库的业务场景。有些人则认为,数据库术业有专攻,图数据库只适合用于一些特定细分场景。
Amazon是后者的一个代表,在数据库领域,Amazon的战略是Purpose Build Database,即专用数据库,讲究术业有专攻,让图的归图,时序的归时序,关系的归关系。该专家指出,用户业务可能很复杂,但是什么场景用什么数据库,你不能指望用一个数据库解决所有问题。2017年,Amazon推出了自己的图数据库Neptune。
该专家强调,图数据库永远不可能单独存在,一定是IT系统中一个组成部分,Amazon 90%以上的图数据库项目都会涉及MongoDB、MySQL等数据库,在整个IT项目中图数据库所占的份额不会特别大,但越来越重要,使用范围也会越来越广。未来图数据库与关系型数据库将并存,二者并不是取代关系,因为图数据库和关系型数据库有很大区别,其应用场景也有很大差异。
该专家指出,如果业务的数据适合固定的schema去存储,用关系型数据库会更好。因为关系型数据库主要是表,表要预先定义好schema,数据之间通过表与表之间的join进行关联分析。“如果数据的表达和数据的关系是明确的,那关系型数据库是永远不可能被取代,它也是效率最高的一种方式。”
与关系型数据库相比,图数据库的结构更加灵活。大部分图数据库是No schema,可以把任何对象之间用任何关系连接起来。而图数据库是用点和边来存储信息,点代表图当中的实体,边代表实体间的关系。由于图数据库的灵活数据模型,以及强大的遍历能力,可以在图数据库上展开任意查询,不论关系是否明确,都可以沿着图遍历查询。如果数据的关系非常多,非常复杂,而且要做的查询是通过关系去发现,图数据库更合适。所以图数据库的应用场景在于通过关系去发现价值,尤其是发现隐藏的未知关系,图数据库比关系型数据库以及其他NoSQL数据库更有优势。
该专家指出,现在有很多业务场景都是动态变化,比如上面提到的金融风控,可能每天都会有各种各样新的欺诈场景出现,关系并不明确,隐藏在这些关系里的欺诈的行为,如果用关系型数据库预先定义好的schema 和关系去做查询,永远查不出问题。当把这些数据全部用图数据库组织起来以后,就能发现里面隐藏的关系,找出潜在的风险。
图数据库未来趋势:HTAP、云以及智能化
在该专家看来,HTAP、云以及智能化是图数据库的未来发展趋势。他认为图数据库的落地场景和关系型数据库类似,也分为OLTP和OLAP两个场景。OLTP的场景比较强调实时性,OLAP做大范围分析。关系型数据库的OLTP操作一般是针对一条数据、一行或者几行去进行增删改查,图数据库的OLTP与之类似。图数据库的OLTP是指,每一次查询针对某一个具体的对象或者某一个子图,操作的时候会有一个明确的点,从该点出发,只沿着满足条件的边去做相应查询,而不是说在整个图上做分析。
目前OLTP的场景多一些,比如上面提到的金融、电信反欺诈场景等。在产品侧,国内外大部分图数据库都是先做OLTP,然后再做OLAP,Neptune便是一个OLTP的图数据库,将来可能会增加更多的OLAP分析功能,向着HTAP发展。
在云方面,数据库上云是大势所趋,而在新一代云原生技术Serverless上Amazon也走在了前面。去年,Amazon推出了Neptune Serverless。目前来看,Neptune Serverless主要满足用户的海量大规模数据处理的场景。比如数据的批量导入、导出,且其工作负载并不稳定,适合用Serverless技术来提供图数据库服务,可以为用户节约成本。
该专家指出,图数据库并不是为了存储数据而生,主要是用图数据库进行查询和分析,随着人工智能的发展,图数据库分析也会越来越多和AI/ML结合,目前在各个领域都有智能化发展趋势,图机器学习是Amazon发展的一个重要方向之一。
当下,图数据库还处在起步阶段,仍是小众,但是竞争已经比较激烈。谈论市场是蓝海还是红海,还要看水够不够大。该专家认为,图数据库市场是一个细分的小而美的市场,虽然未来的使用会越来越广泛,但其市场规模和用户需求,很难支撑起一个独立公司大规模运营。“不是所有需要数据库的应用场景都一定要用图数据库,只有在涉及某些特殊需求的时候才会用到图数据库。”该专家相信术业有专攻,专有数据库才是未来。