数据堆栈的演变：我们如何解读不断增长的数据的故事-数据库专区

数据堆栈的演变：我们如何解读不断增长的数据的故事

作者：数据驱动智能晓晓编辑：任朝阳 2024-08-22 15:28 来源：ITPUB

　　如果您与数据领域有过哪怕一丁点儿关系，我想您已经感受过混乱的数据生态系统的细微差别。毫无疑问，数据世界已经经历了它自己的发展过程，事实上，它已经取得了长足的进步。

　　如今，由于数据生成量巨大，即使是小公司也几乎无法想象手动写入、读取和管理数据。如果成功识别出其中的模式，那么每次点击、每次浏览和每个事件都会产生重大且可能有益的业务成果。

　　想象一下，这些事件的数量增加数倍，达到数百万甚至数十亿的规模。如何处理如此大量的数据，并确保数据不仅占用昂贵的空间，还体现出其存在的价值？

　　数据堆栈的演变

　　数据堆栈一直处于不断演变的状态，以适应数据增长的速度。实际上，增长的不是数据，而是数据始终存在于宇宙中。增长来自于我们的技术能力，随着时间的推移，这些技术能力已经发展到可以捕获各种数据流。例如，如今的物联网设备甚至可以检测呼吸和运动来调节通风能力。

　　然而，虽然捕捉和记录数据的感官能力已显著增强，但处理、管理和理解数据的能力却没有以同样的速度进步。所以，我们有眼睛、耳朵、皮肤、舌头和鼻子，但我们仍然缺乏一个能够理解和操作来自这些渠道的输入的完善的大脑。

　　如果流行的数据堆栈是人类……

　　一数据的基奠：传统数据堆栈

　　数据一直存在，未来也不会缺少数据生成。作为一个行业，我们明白，这些无处不在的数据可以而且应该被利用来优化资源和投资回报。

　　这里要注意的关键点是，利用数据的主要目的过去是、将来也将是提升企业竞争力和投资回报。

　　为了实现数据的可操作，第一个具体的基础是传统数据堆栈。那时它还不是“传统的”；它是数据堆栈。这在某种程度上改变了观点。十年或二十年后，当今流行的堆栈很容易落入传统或遗留的范畴。

　　传统数据堆栈是什么？它为什么会过时？

　　简单来说，传统数据堆是本地数据系统的别称，组织管理自己的基础设施和硬件，这不仅需要大量人工，而且在脆弱性（抗变化性）、高维护成本、缺乏可扩展性（每次堆栈需要扩展时都要提供新的基础设施或硬件）、自下而上的维护造成的僵化、从头开始开发以及极其复杂的根本原因分析或缺乏根本原因分析方面也是一种负担。

　　由于传统数据堆栈中的组件（无论是仓库还是大数据集群）彼此紧密耦合，因此将逻辑需求与原始物理数据分离极其困难，从而减慢业务、恢复和 RCA 能力。

　　人工密集和紧密耦合也是传统数据堆栈及其支持的数据管道高度脆弱的原因。转换作业不仅因为技术陈旧而缓慢，还因为管道不稳定，在遇到动态数据或事件时会中断，而众所周知，数据是不断变化的。

　　当然，我们来谈谈核心问题。数据堆栈的整个目标是促进业务。维护和扩展传统数据堆栈所产生的成本对数据团队的投资回报率造成了重大打击。即使我们假设堆栈产生的价值是有用的，并在正确的时间到达业务团队，过渡的保障费用也会吞噬一半以上的价值。

　　因此，就质量、数量，尤其是时间敏感性和投资回报率而言，传统数据堆栈的表现一直远非一流，而这些对于企业而言至关重要。但有总比没有好，它让我们看到了更细微的问题，这些问题比存储在大量物理文件和文件夹中、沉睡在地下室深处的数据问题高出一个层次。

　　二数据的进阶：现代数据堆栈

　　事实就是如此。我们无法否认现代数据堆栈相对于传统数据堆栈状态带来的令人印象深刻的演变。最大的成就可能是革命性的向云的转变，这不仅使数据更易于访问，而且更易于恢复。现代数据堆栈是多个点解决方案的集合，这些解决方案由用户拼接在一起，以实现从物理数据到业务洞察的主动流动。我们都看到了围绕现代数据堆栈的炒作，以及它如何让数据用户沉浸在潜力和可能性中。

　　但实际情况是，现代数据堆栈只是一组不连贯的解决方案，它针对的是管道不堪重负的传统数据堆栈问题的各个部分，并将所有数据转储到中央湖，最终造成了跨行业难以管理的数据沼泽。

　　从总体上看，数据沼泽并不比地下室里的物理文件好。数据沼泽中充斥着丰富、有用但处于休眠状态的数据，由于这些数据的语义孤立且不可信，企业无法将其投入运营。

　　语义不可信源于现代数据堆栈的混乱，其中有太多的工具、集成和不稳定的管道，以至于真实而清晰的语义在网络中丢失了。需要另一个级别的语义来理解低级语义，这只会使问题进一步复杂化。

　　随着数据生态系统逐渐发展成为复杂且孤立的系统，每隔一天就会有源源不断的点解决方案加入到这个疯狂的组合中，非专家级的最终用户陷入了混乱。毫不奇怪，它被称为 MAD（机器学习、人工智能和数据）格局。下面的这张信息图立即指出了现代数据堆栈的问题；无需多言（一张图片胜过千言万语！）。

　　现代数据堆栈生态表现为选择困境、集成开销、维护开销、专业知识开销和资源开销。无数点解决方案组成的混乱生态系统最终会造成数据孤岛，而不是解决它们。

　　三当前解决方案：数据优先堆栈

　　与现代数据堆栈相反

　　现代数据堆栈的出现帮助我们克服了本地部署和人工密集型挑战带来的阻力。然而，现代数据堆栈也是一把双刃剑，它带来了新的问题，甚至是我们在数据生态体系中树一片一片长出叶子时没有预料到的问题。

　　数据优先堆栈是一项里程碑式的创新，其灵感来自过去十年来 Uber、Google 和 Airbnb 等几家数据优先组织开展的数据优先运动。但数据优先意味着什么呢？

　　顾名思义，数据优先就是将数据和数据驱动的决策放在首位，同时通过抽象或智能设计架构降低其他一切的优先级。如果我们从相反的方向来看——“数据最后”，就会更容易理解这一点。

　　当前的做法（包括现代数据堆栈）是“数据最后”的实现，需要花费大量的精力、资源和时间来管理、处理和维护数据基础设施。数据和数据应用程序实际上在这种转变中消失了，并成为以数据为中心的团队的最后关注点，为数据生产者和数据消费者创造了极具挑战性的业务雷区。

　　投资回报时间 (TTROI)

　　在过去的十年中，由于技术水平低下、创新有限，尤其是我们对数据世界的洞察或理解非常有限，组织花了数年时间才构建数据优先堆栈。

　　如今，企业能否很好地掌握数据是决定竞争优势的关键。许多数据优先型组织早就明白这一点，并致力于实现数据优先型的重大项目。然而，复制它们并不是解决方案，因为它们的数据堆栈是针对其特定的内部架构而设计的。

　　🔑 只有根据企业的内部基础设施构建的数据优先堆栈才是真正数据优先的。

　　与普遍的观念相反，建立数据优先堆栈需要数年时间，但随着近几年新存储和计算工具以及创新技术的出现，这种想法已不再适用。在几周内（而不是几个月和几年内）建立数据优先堆栈并从中获取价值并非不可能。

　　无中断

　　轻松过渡到数据优先堆栈是可行的，因为数据优先堆栈不会造成破坏，因为它的目的不是推翻和替换现有工具或之前的大量数据投资。它通过在复杂子系统之上提供统一的控制平面来促进现有的设计架构。随着时间的推移，这些子系统可以根据用户的过渡难易程度或偏好被数据优先堆栈原生构建块取代。

　　四数据优先堆栈的定义因素

　　1.统一架构的内部质量高

　　我们习惯于认为“高质量”的东西价格更高。但当涉及到架构和内部质量的其他方面时，这种关系就颠倒了。高内部质量可以更快地交付新功能，因为干扰更少。”

　　统一方法会毫不留情地削减插入数据生态系统的移动部件。更多工具会带来更多垃圾（债务），并使问题更加复杂。统一方法会组合功能以实现单一管理平面。

　　创建真正统一的架构的关键是清理杂乱，并采用一组简约的构建块。这些块可以按任何必要的顺序组合在一起，以构建更大、更精细的解决方案，这些解决方案具有松散耦合和紧密集成的组件。

　　统一架构只需进行少量调整即可为非常具体的数据应用程序提供支持。最终目标是拥有精心策划的自助服务层，让用户摆脱复杂、孤立和隔离子系统的复杂性，以便他们可以专注于手头的问题——数据。

　　2.声明式可管理

　　真正的数据优先堆栈会将重点放在数据和数据应用程序上，而不是将工作分散到底层操作（例如提取、集成、编排、低级存储细节等）。此外，数据工程团队花费更多时间来修复管道，而不是创建新管道以推动业务机会。声明式管理系统可大幅消除脆弱性范围，并按需提供 RCA 镜头。

　　声明式管理数据质量、治理、安全性和语义曾被认为是不可能的，但得益于最新的革命性数据契约理念，数据领域的声明式功能可以轻松实现。最棒的是，契约不会破坏任何现有的基础设施。

　　3.快速回顾合同

　　数据合同是对数据的期望。这些期望可以是业务含义、数据质量或数据安全。它是数据生产者和数据消费者之间的协议，用于记录并以声明方式确保满足数据期望。

　　请关注此处以深入了解合同。

　　具有统一架构思想并辅以契约式握手的数据开发平台是声明式数据生态系统的目标，因此也是数据优先堆栈的真正推动者。

　　4.最先进的开发者体验

　　数据优先堆栈的主要最终用户无疑是数据开发人员。数据开发人员在处理数据和构建数据应用程序时的经验对于资源优化和业务时间表至关重要。数据优先堆栈提升了开发人员的体验并抽象了低级资源管理任务，同时又不损害其灵活性，使数据开发人员可以完全自由地以声明方式管理不太具战略性的操作。

　　合同在策划最佳开发人员体验方面也发挥着关键作用。“我们需要结束没有数据合同的数据工程行业的灾难。”数据合同的最佳位置在哪里？为什么数据工程师要放弃数千个待处理的请求，去考虑合同对他们日常体验的影响？

　　通过在数据环境中分布的合同握手的简单哲学，合同几乎完全符合价值金字塔：

　　提高数据生态系统的功能能力
　　改善协作体验
　　改善数据工程师、数据生产者和数据消费者的个人体验
　　此后，启用 Data-First 堆栈，用户可以专注于核心数据和核心数据应用程序，而不必陷入集成和维护的细节中。

　　5.价值在几周内实现，而不是几年

　　全面数据优先堆栈，最初的发展速度很慢，但一旦克服了最初的几周，其价值就会立即实现，因为真正的数据优先堆栈正如其名称所言：它将数据和指标放在首位，并将流程直接与业务效益联系起来。如果你仔细想想，数据优先就是效益优先的同义词。

　　五数据优先堆栈的结果

　　数据优先堆栈的最终目标是创建数据产品。尽管这应该是任何数据堆栈、数据团队或数据计划的理想目标，但创建真正有助于实现业务目标的有价值数据的最终目标却不知何故在普遍的数据堆栈的复杂性中被遗忘了。

　　数据优先堆栈可消除干扰，重新将注意力集中在数据和数据应用程序上。当数据通过数据优先堆栈的组件传输时，典型的输出是数据产品，简而言之，它是持续可靠地为用户增加价值的数据单元。数据产品具有一些独特的品质或属性，使其与一般数据区分开来。

　　如果数据产品具备上述特质，它很容易就成为一个简单的电子表格、存储中的文件、一个表、一个数据库、存储在ML特征存储中的特征......你明白了。

　　小结

关注我们