如果市场上的分析数据库能为大量快速变化的数据集提供海量查询服务,那么企业可能需要查看 Gigaom Sonar 关于实时分析数据库的最新报告。
实时分析数据库是过去几年中出现的一个相对较新的产品类别,旨在为要求最苛刻的分析工作负载提供服务。该领域的产品以全新的方式结合了现有的技术能力,如 OLAP 和流式数据,以应对新的数据处理挑战。
该分析集团的长期研究总监Andrew Brust撰写的最新 Gigaom Sonar 报告涵盖了这一新兴市场及其主要参与者,包括 Aerospike、ClickHouse、Imply、Kinetica、Materialize、MotherDuck、SingleStore、StarRocks 和 StarTree。(如果 Rockset 没有在今年 6 月被 OpenAI 收购,布鲁斯特无疑也会把它包括在内。)
Brust指出,实时分析数据库并不代表一种革命性的新型技术,而是现有技术的演进。
他在报告中指出:这些数据库源于传统的在线分析处理(OLAP)数据库;然而,它们超越了这些前辈,提供了连接和摄取超大(高达PB级)数据量的能力,这些数据通常来自流数据源和批处理或变更数据捕获(CDC)源。
实时分析数据库与其他数据库类型具有共同特征(图片来源:GigaOm)
“为了便于以最小的延迟对大量数据进行分析,这类数据库利用了结构和架构优化。”他继续说,“例如,定向列、各种类型的索引、分区和分割、为加速查询而进行的聚合预计算以及向量处理。可扩展性,系统在不断增加的工作负载需求下的恢复能力,以及高可用性在这一类别中也很重要,因为分析具有时间关键性。”
目前,一些复杂艰巨的大数据工作负载都运行在实时分析数据库之上,例如广告技术公司 Sovrn(StarTree 客户)每天运行的数亿次拍卖,思科 ThousandEyes(Imply 客户)每天处理的 15 亿个事件,以及 Uber、Target 和 Netflix 的其他用例。由于数十亿消费者对数据规模、数据新鲜度、查询吞吐量和查询延迟的独特需求,许多最棘手的实时分析用例都涉及面向消费者的网络应用。
Brust根据他认为对实时分析数据库最重要的七项特性对九家供应商进行了评分,包括:存储/分析优化、数据摄取、分析预处理、模式管理、客户端/工具连接、可扩展性和高可用性。
结果,ClickHouse、Imply、Kinetica、StarRocks 和 StarTree 五家公司并列第一,平均得分均为 2.6 星(满分三星)。SingleStore 以 2.4 分排名第六,MotherDuck 以 2.3 分排名第七,Aerospike 和 Materialize 以 2.1 分并列第八。
GigaOm 关于实时分析数据库的 Sonar 报告(图片来源:GigaOm)
Brust指出,Sonar报告中包含的所有供应商都被认为是创新者,他们都是数据平台的构建者,而不仅仅是功能的提供者。他写道,所有这些产品都是“综合、全面”的产品。
“在审查解决方案时,重要的是要牢记,不存在通用的'最 佳'或'最差'产品。”这位长期从事大数据分析的 ZDNet 撰稿人写道,“每种解决方案都有可能在某些方面更好或更差地满足客户的特定需求。潜在客户在比较解决方案和供应商路线图时,应考虑他们当前和未来的需求。