数据库 频道

大解耦:一体化数据平台已死?

在Teradata和Oracle许可证时期的技术栈,企业领导者倾力打造单一、整体化的平台,将其作为稳定、全面的单一数据源。这种模式往往导致创新周期缓慢、架构僵化且陷入供应商锁定。随后行业转向“大解耦”的对立方向,催生了现代数据堆栈。这种最 佳实践方案需要整合专业工具,却带来了多重工具运维保障、安全维护及故障诊断的疲劳应对。

这进而引发了“大重组”浪潮。平台已扩展为端到端的生态系统,让数据从业者不禁思考:一体化平台是否正在卷土重来?真正的核心问题并非哪种模式更优,而在于企业如何融合二者,构建既模块化又在关键环节实现深度集成的技术栈。

解耦的价值——现代数据栈的崛起

云计算是解耦浪潮的引擎。云原生架构从根本上解耦了存储与计算,这一变革使单体模型过时,催生了新型专业化工具的蓬勃发展。团队得以独立扩展存储与计算资源,削减闲置支出,并选择适配特定场景的引擎而无需迁移数据。

这种方法带来的优势不容忽视,它使团队能够构建定制化的技术栈。主要优势包括:

  • 成本优化:按需付费模式与技术栈各层可选方案,实现了更精细的财务管控。

  • 快速创新:专注数据转型的企业,在该细分领域创新速度远超大型平台的转型模块。

  • 摆脱供应商锁定:当更优技术出现时,灵活替换组件的能力将成为战略优势。

  • 弹性与掌控:数据团队可为特定任务选择最 佳工具。

解耦的本质在于组建理想组件团队。标准格式确保数据稳定性,同时引擎持续进化,数据管道原地优化。分析师和数据科学家获得真正喜爱的工具,平台团队则保留着市场变化时刷新层级的选择权,开放格式与模块化引擎的结合使这一切成为可能。

重组的必要性——复杂性的隐性成本

解耦存在弊端,即所谓“弗兰肯斯坦式堆栈”——由众多历史遗留系统长期拼凑而成。每新增一款工具,便会增加配置项、权限设置、连接器及故障模式。数据领域学者们早已记录:工具蔓延如何加剧复杂性,现代堆栈承诺的模块化构建块如何沦为运维噩梦。

集成成本真实存在。让数十个组件协同运作绝非一次性工程,需要持续升级与兼容性测试。即便在安全等相邻领域,独立研究也揭示了多供应商工具链的代价——从可见性不一致到运维阻力。这种困境与数据团队管理重叠的质量、可观测性及血统追溯工具的处境高度契合。

安全与治理资源在多产品间同样捉襟见肘。当策略分散于不同系统时,基于角色的访问控制、数据保留与合规要求难以统一实施。学术界与产业界关于数据管道质量及数据密集型系统的研究,持续揭示系统扩展过程中出现的兼容性问题与架构摩擦。

更存在“推诿责任”的恶性循环——每次数据管道故障时,排查都异常艰难。究竟是采集工具、转换层还是BI平台的问题?几乎无法精准定位根源,导致问题长期悬而未决。

认知负担更是演变为招聘与培训难题。新成员必须掌握多种用户界面、命令行界面及领域专用语言。管理者面临两难抉择:是选择能维护技术栈整体性的通才,还是押注能推动单一层级发展的专家。

数据团队之外的风险同样严峻。单次物联网驱动的安全事件,在计入响应成本、罚款、修复费用及声誉损失后,平均损失超过33万美元——这警示着分散的管控不仅增加运营负担,更将提升业务风险。

中间地带——核心与生态系统模型

行业并非倒退至过去,而是迈向更高的抽象层次。想象一个锚定平台的核心,以及在其之上创新的周边生态。

核心是数据存储和策略锚定的数据仓库或湖仓Lakehouse。开放表格式将这一核心转化为共享基础设施,使不同引擎可读取相同数据表,团队无需重构存储即可切换处理层。实用的核心需建立基础管控机制:包括传输中与静止状态数据的加密、经测试备份实现的弹性恢复、分析共享时的数据屏蔽或净化以减少暴露风险,以及依据政策法规要求执行数据销毁流程。

专业工具在外围领域蓬勃发展。只要遵循开放接口和核心治理规范,可观测性工具、语义层、原生笔记本探索或领域专用机器学习服务都能快速迭代,这正是平行孤岛与生态系统的本质区别。

为何此时推进?

开放标准已臻成熟,供应商正围绕其展开协作。2024年,Snowflake发布了面向Iceberg的Polaris目录,强调跨云供应商的互操作性。业界将其视为迈向供应商中立目录而非封闭花园的重要一步。Databricks同样通过推动Delta Lake成为开放标准并扩展对其他格式的支持,践行互操作性理念。

中间立场认可双方共同认知的事实——团队需要选择权而非碎片化。实际路径是将数据集中存储于开放基础架构之上,再接入与这些基础架构互通的顶尖工具,而非绕过基础架构。

未来图景——可组合平台的崛起

这将引领行业迈向下一个必然方向——可组合平台。这是对未来数据架构的核心预测。企业可先采用主流供应商提供的强大集成核心,该核心提供包括数据Lakehouse、治理、安全及基础工具在内的基石架构。在此基础上,企业通过添加无缝集成工具,逐步构建理想的技术栈。

可组合平台如同乐高积木搭建。当出现更优的新“积木”时,团队可轻松替换旧部件,无需破坏整体结构即可嵌入新组件。

数据工程师无需耗费精力构建定制集成,转而专注于核心架构上的数据产品开发。数据科学家获得更统一的操作体验,并能通过专业工具访问数据。数据负责人也能采用新工具解决特定业务难题。

行业专家指出,这种转变的标志性特征是数据应用商店模式。若平台能提供稳定的API和目录,第三方即可分发可在核心系统内发现的扩展程序。Snowflake的原生应用框架与应用商店,以及Databricks应用商店便是此类实践。

从全能型到按需型

传统单体式一体化数据平台已然消亡。其衰落催生了解耦的现代数据堆栈,这种架构虽强调灵活性却带来了高昂的复杂性代价,如今市场正在自我修正。

平台理念正以全新形态回归——开放格式、可嵌入引擎及目录系统构筑了开放生态。掌握可组合架构将成为新的竞争差异化要素。最成功的公司将是那些懂得在不重写基础架构前提下采用创新技术,在保持控制权的同时不阻碍探索进程的企业。

作者Ellie Gabel是自由撰稿人

0
相关文章