处在激烈变革的实时分析领域,迎来了突破性产品。
近日,在2024 中国国际金融展上,OceanBase重磅推出V4.3.2版本,标志着其在“关键业务负载”一体化战略上迈出了重要一步。其中,基于列存引擎的AP性能增强是新版本的重点和亮点,OceanBase由此极大提升了OLAP实时分析能力,打造近PB级实时分析数据库。
企业对实时分析有怎样的需求?市场上有哪些实时分析产品与解决方案?OceanBase实时分析数据库有怎样的定位?ITPUB采访了OceanBase相关专家,一起探讨实时分析需求和技术的发展演进,并给出了实时分析数据库的选型建议。
为什么需要实时分析数据库?
为了能在激烈竞争中保持优势,企业需要更及时的数据洞察和快速的反应能力,实时分析需求不断增长,构建实时基础设施成为企业刚需。
比如银行业的反欺诈,包括检测不适当的访问以及防止身份盗窃等,这需要数据尽可能是最新的并且可以实时检测才会有效。此外,为了服务网络和移动客户,无论是显示当前余额、列出最近的交易还是进行跨账户转账,银行需要实时响应请求。
在汽车制造业,生产层面的实时系统监控,需要实时查看生产线的状态,以便更好地管理和维护生产线。在运营层面的实时营销,千人千面的实时推荐场景等都需要实时分析能力,未来,实时分析场景只会越来越多。
原有典型的Hadoop+MPP架构已经无法满足企业实时分析能力,企业会引入Spark、Flink、Storm等流批引擎增强实时能力,此外,近几年市场上实时数仓、实时湖仓以及实时分析数据库等产品和解决方案如雨后春笋般出现,为企业构建实时基础设施提供了新的选择。
但是丰富的实时数仓、实时湖仓等解决方案也存在一些问题,比如,以HBase等Hadoop体系搭建的实时分析解决方案,多套系统带来较高的建设成本和运维成本,数据链路复杂造成较高的时延。而且对于一些中小企业而言,由于缺乏相关人才和技术储备,系统复杂性往往也令其望而却步。
一些OLAP列存分析数据库,数据分析能力较强,虽然这些产品本身也在向着实时分析发展,但是在一些极致低时延的场景会存在局限性,以Doris为代表的新型数仓为例,由于需要攒批插入,造成数据写入到数据可见会有一定的时延,这在一些极致低时延场景是无法接受的。此外,高并发以及点查等场景也是列存分析数据库的短板。
现代数据架构在向着实时性发展,同时也向着简化复杂性、提升易用性发展,一体化数据库是其中的代表,在实时分析领域,流批一体、HTAP等融合发展便是最好的例证。
实时分析的实时性是根据客户业务场景需求而定,有的场景需要毫秒级,有的需要秒级,有的可能是分钟级,所以企业客户更希望产品能够提供按需实时的能力。
在中国国际金融展上,OceanBase重磅推出了V4.3.2版本,带来了关键技术升级。该版本在列存引擎的基础上进行了优化,包括实现行存和列存的优化器和执行器,并通过优化“行采样”来避免不必要的数据读取开销。此外,新版本还支持全文索引,加速数据检索和查询,打造了近PB级的实时分析数据库,让人眼前一亮,为实时分析场景带来了更多可能性。
OceanBase实时分析数据库有何不同?
OceanBase发布列存储引擎,打造近PB级实时分析数据库,来自于用户需求的启发,也是一体化数据库发展的自然延伸。
按照实时响应要求来划分,用户场景可以分为纯TP场景、大TP小AP(经典HTAP场景)、小TP大AP(实时AP小事务场景)、纯AP场景。OceanBase从TP到HTAP、再到AP逐步延伸。
在强TP场景,OceanBase已经在金融、电信等关键行业的核心系统广泛落地应用。HTAP即OLTP Plus版本,是在强OLTP场景下的AP需求,适合数据量在几百GB到几百TP中小规模数据量的实时分析场景。此前,OceanBase构建了HTAP能力,在OLTP基础上,提供复杂查询优化、秒级低时延响应等能力,满足了一些企业的AP场景需求。
对于更大规模数据的实时分析场景需要更强的AP性能,经典的HTAP无法很好满足需求。OceanBase发布4.3版本推出列存引擎,并且围绕列存引擎在优化器、执行器、DDL等多方面进行了适配优化,比如支持物化视图、推出基于Column数据格式描述的2.0向量化引擎、支持联邦计算等,提升大规模并行处理能力,打造近PB级实时分析数据库,进一步加强TP/AP一体化。
据悉,4.3版本在TPC-DS的查询性能是上个版本的的10倍。在今年4月份OceanBase开发者大会现场,OceanBase 4.3与流行的大宽表数据库Clickhouse在同等硬件条件下进行了跑分PK,结果显示,在大宽表场景,两者的查询性能处于同一水平。在AP领域,有了列存的OceanBase还是很能打的。
TP、AP一体化,不一定是把TP跟AP放到一个系统,也可以是把分布式的TP能力直接融合到AP系统里面,做出更好、更加实时,对开发者更加易用的新型实时分析数据库。
把OceanBase多年积累的分布式TP能力直接融合到AP系统里面,使得OceanBase OLAP拥有了不一样的特性,是其打造差异化创新优势的关键。
比如,在高并发、点查场景,传统的OLAP数据库查询能力强,但是无法做实时写入。OceanBase 4.3基于LSM-Tree架构推出列式存储引擎,实现可行存、可行列混存和可列存的多种存储方式,表级别的行、列转化为客户提供了更细粒度的选择,让用户可以实现性能和成本的兼得。融入分布式TP核心能力小事务写入技术,有效消除数据导入延迟,降低时延。
很多AP系统没有在关键核心领域试炼过,可靠性和稳定性难以得到保障。OceanBase OLAP继承了OceanBaseTP系统的稳定性、可靠性,以及MySQL、Oracle、PL/SQL等功能和语法兼容性,使得迁移替换变得更加容易,查询变得更加简单,使用SQL或者PL/SQL即可进行AP查询。
有的AP数据库采用了分布式架构,可以处理更大规模数据量的分析,但是会存在一定的使用门槛。中小企业由于人才、技术储备有限,无法搭建复杂的Hadoop+Spark,使用MySQL+Clickhouse/Greenplum的成本高,也会增加复杂性。OceanBase单机分布式一体化能力,让中小企业的实时分析有了新的选择。而且,一体化架构使得OceanBase可以实现小、中、大全场景覆盖,降低了运维复杂度和运维成本。
OceanBase从4.3版本开始,将分布式TP即有的能力集成到AP上,以更低的成本解决Oracle当年解决的问题,而且可以处理更大规模的数据量。OceanBase 4.3推出列存引擎,强化AP能力,在TP、HTAP、AP能力上OceanBase要和Oracle对齐。但是OceanBase独特的LSM-Tree和分布式架构,使得其成本开销比Oracle更低。
值得注意的是,OceanBase OLAP更适合PB级以下的实时分析,超过PB级的业务场景并不是OceanBase实时分析数据库的主打领域。
小结:实时分析,OceanBase可能是更好的选择
在实时分析大趋势下,企业需要根据业务需求选择合适的实时分析产品与方案。企业在进行实时分析型数据库选型时,会关注性能、稳定性、易用性、生态对接、数据导入/导出性能、数据导入导出介质、成本等因素。目前,OceanBase已经与Flink等实时计算引擎完成生态对接,企业可以更灵活地进行选择。综合性能、稳定性、易用性、成本等因素考虑,一体化OceanBase 4.3的创新特性,可能是实时分析场景更好的选择。