酷克数据首席解决方案架构师牛云飞
第十五届中国系统架构师大会(SACC2022)近日在线上举行,本次大会以“激发架构性能 点亮业务活力”为主题,云集国内CTO、研发总监、高级系统架构师、开发工程师和IT经理等技术专家,共议IT系统架构发展的新技术、新趋势、新特点。
在会上,酷克数据首席解决方案架构师牛云飞发表了题为《从分析视角的变化看银行业数据平台架构演进》的主题演讲。他提出,随着数字化转型的持续推进,越来越多的银行正在从流程驱动型向数据驱动型演进。在这一过程中,数据逐步成为银行核心资产,其衍生价值越来越大。
随着数据衍生价值的增大,银行对数据分析的需求也从面向过去的描述型分析,逐渐演变成面向过去、未来和现在的全视角、智能化分析。同时,银行业的数据平台正从单一架构的传统数仓平台,演进为湖仓一体、存算分离的一体化数据平台,以HashData、SnowFlake为代表的云原生分析型数据库,正成为银行业数据平台建设的首选技术路线。
银行业数据分析演进过程
金融行业,尤其是银行业是对数据库依赖度极高、又对数据库要求最为严苛的行业。随着互联网及移动互联网技术的兴起,网上银行、手机银行、电子支付等新业态出现,高并发、海量数据、超高峰值等挑战接踵而至,导致数据资源存储、计算和应用等需求大幅提升。
牛云飞在演讲中分享了银行业数据平台演进过程,论述数据平台如何通过架构演进,帮助银行最大限度释放数据资源价值。
他指出,银行对数据分析的需求,可以分为三个阶段。在数据分析1.0阶段,银行积累了大量业务数据,希望通过数据了解一段周期内的企业经营情况。因此,这一阶段银行以看到过去的描述型分析为主。
在数据分析2.0阶段,银行不仅仅要对已经发生的业务进行评估,还需要对业务进行前瞻性预测。因此,这一阶段银行在描述型分析的基础上,又会大力开展面向未来的预测型分析:需要建立数据科学团队,针对海量数据进行探索、研究,从数据中洞察业务趋势。
随着云计算技术的普及,企业数据分析正进入3.0阶段。在这一阶段,银行希望提高数据分析的时效性,打通前后端,将分析发现的业务洞察嵌入业务流程,自动化、智能化驱动业务。因此,银行逐步开展“决定现在的运营型分析”,在开展业务流程或活动过程中,直接调用数据产品或服务,利用数据分析成果,驱动业务向希望的方向发展。
银行需要支撑全视角的数据分析
牛云飞认为,数据驱动型银行应具备全视角数据分析能力,传统BI平台已无法满足全视角分析需求,银行需要建设一体化的数据平台。
一体化数据平台要具备三项基础能力:多形态数据管理能力、多样化分析计算能力和多维度的弹性伸缩能力。
牛云飞表示,一体化数据平台应该能够兼容结构化、半结构化、非结构化等不同形态、不同时效性的数据,进行多样化的计算和分析,并根据业务需求变化进行弹性伸缩。在实现上述能力的基础上,银行可以通过一体化数据平台满足内部业务客户、司法审计用户、金融监管用户的业务需求。
在银行业数据分析需求转变过程中,银行也从自身的金融科技发展角度看到了新技术在性能、弹性和成本管理上的优势,越来越多的银行开始应用分布式技术,建设全行级的一体化数据平台,整合全域数据,形成面向整个银行统一的数据视图,支撑全视角数据分析。
一体化数据平台建设思路
“银行一体化数据平台的建设不是一蹴而就的”,牛云飞说,它的发展同样经历了长期的演进过程。
在数据分析1.0阶段,银行主要采用传统的数仓平台,主要针对银行内部的结构化数据,支撑报表、查询、多维分析、数据分发等描述型分析,辅助日常决策。这一阶段采用的技术路线以传统MPP数据库(以一体机为主)加Oracle为主。
最初,传统的分析型数据库普遍采用共享磁盘并行处理架构(基于SAN存储),节点规模通常不大,并且随着扩容,系统性能提升幅度会越来越小,存在网络资源竞争激烈、扩展性差等缺陷。这种架构主要面向业务条线或部门的分析应用、数据集市等场景。
为了满足搭建银行全行数据平台的需求,基于完全无共享的MPP架构逐渐成为构建面向全行统一数据视图的一种主流技术路线。这种架构的产品以一体机为主,成本相对较高。随着数据规模的扩大,对企业造成的成本压力也越来越大。同时,这种架构由于采用存储计算紧耦合的设计,无法满足高并发、混合工作负载等方面的需求。
近些年,随着银行信息化建设的推进,传统数仓平台应用面临挑战着诸多挑战:
业务场景单一:数据平台支撑的分析主要针对已经发生的业务情况进行反映或诊断,不能对业务进行灵活探查,无法满足业务人员自主用数需求,更缺乏前瞻性预测能力;
业务体验不佳:很多银行随着业务的发展,数据规模的增长,数据平台面临计算能力和扩展能力的瓶颈,这导致日常数据处理时间过长,跑批经常出现延迟,严重影响了业务体验和业务决策;
数据整合不足:很多数据平台虽然定位是企业级,但是整合数据范围受限,没有形成企业级数据视图。此外,针对企业混合数据生态,尤其是半结构化、非结构化数据、或高时效数据,更是缺乏整合能力;
数据支撑受限:由于数据整合的范围受限,难以构建面向全行的、统一的数据视图,无法对下游分析应用形成有效支撑;
建设成本过高:很多银行数据平台采用封闭的一体机,随着建设的深入,算力和存储能力驱动的扩容越来越频繁,专有设备每次扩容耗费了大量的人力、物力和财力,成本居高不下。
面对传统数据仓库带来的挑战,很多咨询机构都提出了多元化、混合架构的思路,技术上引入了纯软的MPP数据库和Hadoop。但随着银行业务负载越来越复杂,需求越来越多,多元化平台无法实现高并发、负载无法隔离等缺陷愈发凸显,同时还存在业务体验波动、数据整合不足、数据支撑不佳、运维管理复杂等缺点。
对此,多家市场调研机构发布的报告显示,云原生数据仓库的优势大大超越传统数据仓库。Gartner预计到2023年,全球75%的数据库都会运行在云端。
在这样的背景下,国内外主流的公有云厂商,均推出了基于云原生架构的数据库产品。同时,Snowflake、Databricks等独立软件厂商也推出存算分离、湖仓一体架构的产品。
其中,Snowflake提出了基于对象存储的多集群弹性并行处理架构(Elastic Parallel Processing,简称EPP),这种架构具有MPP执行引擎、标准SQL接口,元数据、计算和存储三者分离、多集群统一数据存储层、对象存储作为数据持久层等特点。
酷克数据作为国内最早专注于云原生数仓研发的独立软件厂商,旗下核心产品HashData基于领先的EPP架构,采用对象存储作为数据持久层,实现了存算分离、湖仓一体化,具备高可用、高并发、近乎“零运维”等特点,全面支持银行构建一体化数据平台。
凭借领先的技术优势,结合自身丰富、成熟的实践经验,HashData目前已广泛应用于金融、政务、运营商、交通物流、能源和互联网等领域。
在银行业,HashData为国有大行、政策性银行、金融监管机构、股份制商业银行、省农信等提供数据管理、分析服务,助力银行构建面向全行统一的数据视图。HashData支撑了全球最大规模的金融行业集群,期待将服务头部客户的实践经验广泛推广,帮助金融企业完成业界领先的技术架构升级,降低数据分析门槛,充分释放数据价值。