数据库 频道

新的Lakehouse,迟来的数据范式转变

我们处理数据的方式很少出现根本性的变化。例如,几十年来行业标准的数据库模型关系型数据库是在1970年首次提出的。虽然多年来有许多与数据库相关的创新,但一成不变的旧数据范式已经被塞进了一个与过去非常不同的现代环境中。数据存储和计算的变化扩大了数据团队可以完成的任务和能力,但如果没有数据范式的转变,数据世界将面临同样的核心挑战。

数据团队的不同部门习惯于在他们自己的领域,用自己的数据和自己的工具单独工作。但这造成了效率低下,最终导致了企业内部的信息差距。企业再也不能在这些孤岛中运作了,企业现在意识到数据所能发挥的关键作用,而获取和利用整个企业产生的数据需要将这些信息差距降到最低。

为了充分实现数据的商业价值并释放其潜力,需要在一个协作的环境进行数据管理。由新技术驱动的彻底的文化变革可以改变企业--将数据工程师、数据科学家、业务分析师以及其他任何依赖高质量数据的人聚集在一起,共同致力于降低成本,推动创新,并缩短产品上市时间。这种转变需要打破数据团队之间的障碍,并集中关注当今的数据挑战和工具,而这种模式的转变已经开始了。

进入Lakehouse,最近,围绕着Lakehouse的概念有很多炒作,这是有原因的。从本质上讲,它是一种新的数据管理范式,结合了数据仓库和数据湖的功能,改变了数据团队共同运作的方式。这种新的架构代表了我们处理数据的方式的重大根本转变。

Lakehouse对企业来说具有巨大的潜力,它具有处理现代分析的能力和灵活性,使企业能够对其见解具有描述性、预测性和规范性。这种新的模式将通过解决一些因固守现状而产生的核心挑战推动企业走向未来。我们需要的是及时准备数据、获得洞察力和做出变革性决策的能力;为工程师、数据科学家和商业用户配备可以轻松访问的高质量数据;通过提供一个真正的合作环境,让数据文化蓬勃发展,将不同类型的数据工作者聚集在一起。

消除数据工程师和数据科学家之间的鸿沟

旧模式尚未解决的最普遍的挑战之一是消除孤岛,将不同类型的数据工作者聚集在一个协作环境中,建立一个繁荣的数据文化。这个痛点可能比数据质量和准备等得到的关注要少,但它可能是现代分析基础中最重要的。

为了在现代环境中获得成功的分析,数据工程师和数据科学家必须保持一致。但是,直到最近Lakehouse引入之前,数据团队都在各自的领域里工作,有自己的数据。数据工程师主要在数据仓库中工作,他们的结构化数据就在那里,可以用于报告、分析和商业智能。数据科学家更喜欢数据湖,因为它能够将结构化和非结构化的数据以原始形式结合起来,在那里可以通过深度洞察、预测性分析、机器学习和人工智能模式识别来寻找新的机会。

数据工程师和数据科学家之间缺乏合作,这是企业生产力和创新的一个关键障碍。这种分工导致了不必要的重复工作,产生了额外工作,减缓了在数据中寻找价值的能力。仅举一例,数据科学家经常创建实验性的数据产品,然后必须由数据工程师重建,才能在生产中使用。

Lakehouse以一种动态的方式将这两个世界结合起来。Lakehouse既具备数据仓库的数据结构和管理功能,又能将数据直接存储在传统数据湖中使用的那种低成本存储上,Lakehouse将数据工程师和数据科学家统一到同一个系统中,使用相同的工具,成为一个真正的数据团队。当数据团队不再在云仓中运作时,他们可以更快地一起工作,同时减少对数据保真度的风险。此外,有了一个统一的数据位置,团队总是可以为他们所有的数据科学、机器学习和商业分析项目提供最完整和最新的数据。

改善数据管理

除了需要发展数据团队结构外,收集的数据类型也在不断变化。物联网传感器和设备以及视频和音频工具的兴起,使得数据团队有必要能够处理不同类型的结构化、半结构化或非结构化的数据。即使是现有的数据集,随着模式的不断变化,每一刻都是不同的。处理所有这些不同的数据类型耗时耗力,而且成本也很高。它需要支付和管理多个数据基础设施以及与每个基础设施相关的运营成本。

由于Lakehouse使团队能够同时管理结构化和非结构化的数据,它在应对数据的新趋势时创造了更大的弹性。Lakehouse随着数据类型和模式的变化而变化,模糊了结构化和非结构化之间的界限,允许所有的原始数据存储在一个中央位置,同时在上面保持一个存储层。数据多样性不再是一个问题,因为企业可以管理所有的数据格式,并在这个过程中保持成本下降。

结合结构化和非结构化的数据也减少了数据丢失的可能性。当所有的数据都在一个统一的解决方案中管理时,数据恢复和高可用性就更简单了。如今,一个强大的数据态势已经成为提高组织整体准备和弹性的必要条件。通过采用Lakehouse架构,企业正在为未来的数据需求做好准备。

从数据中快速获取价值

Lakehouse范式不仅解决了数据的存储和协作问题,还带来了更有利的洞察结果。现代数据团队希望通过描述性报告,甚至是预测未来的预测性报告,来描述当前状态。为企业提供可能的结果和下一步建议的规范性报告正在成为最终目标。

在Lakehouse,数据和数据实践可以在不同的团队之间共享,有可能建立高质量的数据和数据科学的敏捷性,这对规范性分析至关重要。随着数据工程师和数据科学家越来越快地访问共享的、安全的和连接的数据,企业可以更好地配合现代分析,更快地获得洞察。

更快地获得洞察力也意味着从数据科学实验到生产的时间更快,这是企业保持敏捷性的一个必要条件。对于想要从数据科学家那里获得价值的企业来说,对开发和产品化速度的需求尤为迫切。今天的数据科学家把大部分时间花在准备数据上,而不是做他们受雇做的事情:对数据进行建模并从中获得洞察力。速度和协作是企业在数据旅程中希望成熟的商业报告和分析实践的重要成分。

旧的数据范式也不再适用于可以有巨大回报的机器学习或人工智能操作,在以前这些大多被视为科幻小说的概念。由于数据的数量和演变的多样化,一切正成为现实。

随着数据的数量和多样性迅速增加,人类已经不可能自己分析所有的数据。企业正在转向机器学习和人工智能,以跟上时代的发展。对于数据科学家来说,要跟上日益增长的需求和需要分析的数据速度,Lakehouse提供了一个 “数据游乐场”,使他们能够访问大量的结构化和非结构化数据,并建立先进的分析模型。

商业世界的发展速度比以往任何时候都快,如果企业想要跟上步伐,他们就需要抛弃那些拖累他们的旧的数据思维方式。数据团队在从海量数据中寻求价值时面对的障碍越少,他们就能更快、更灵活应对市场。现在是转变模式以适应这些现代数据需求的时候了,而Lakehouse提供了新的愿景。Lakehouse的大规模采用和成功之路,以及真正的创新之路,在于为那些每天从事数据工作并从中受益的人培养一种真正的数据文化。Lakehouse提供了一个统一环境的基础,整个组织可以更有效地使用数据并释放其真正的商业价值。

作者:Matillion产品副总裁Dave Langton

来源:https://www.dbta.com/BigDataQuarterly/Articles/The-New-Data-Lakehouse-An-Overdue-Paradigm-Shift-for-Data-151318.aspx

0
相关文章