数仓坚守者Teradata 投身Lakehouse，但并非人人信服-数据库专区

数仓坚守者Teradata 投身Lakehouse，但并非人人信服

作者：卿云编译编辑：任朝阳 2024-05-28 15:15 来源：ITPUB

Teradata凭借其统一企业数据仓库的愿景，吸引了包括汇丰银行、联合利华和沃尔玛在内的全球主要客户。但在本月早些时候，Teradata 确认将支持Lakehouse，该概念结合了杂乱的数据湖和结构化数据仓库，以及在对象存储和开放表格式支持下随时随地进行分析的理念。

尽管Teradata可能是被逼无奈，但观察人士指出，Teradata的主打产品--基于块存储的高性能分析技术仍有用武之地。

这家拥有 45 年历史的公司此前宣布支持开放表格式(OTF) Apache Iceberg 和 Linux Foundation Delta Lake。通过这种方式，Teradata顺应了行业趋势，即对数据进行原位分析，而不是将数据转移到单一存储中进行商业智能和其他分析。

Teradata还首次对Lakehouse架构表示赞同，该架构是由竞争对手Databricks引入的一个术语，用于描述机器学习和数据探索环境，以及通常在企业数据仓库这一更为规范的环境中进行的传统商业智能和分析。

人工智能的应用已将数据仓库、分析和数据科学工作负载整合为统一的Lakehouse。“OTF支持进一步增强了Teradata的Lakehouse功能，提供了一个灵活、经济高效、易于使用的存储抽象层。”Teradata公司声称。

Teradata工程研究员Louis Landry在接受The Register采访时表示，支持OTF并不意味着公司不再相信企业数据仓库。

“这是一种互补，”他说。“我们相信，我们需要能够在数据所在的地方使用数据。在很多情况下，这将意味着高效的块存储，以实现低延迟和所有这些优点。但在很多情况下，数据并不是这样布局的。不同的客户有不同的需求。我们的目标始终是确保他们从集成数据中获得最大价值。”

他说，数据仓库和Lakehouse更多是架构上，而不仅仅是技术上不同，客户可以选择适合自己的方法。

“这意味着我们将继续围绕高吞吐量工作提供服务，而这些工作实际上只能通过块存储来完成。但我们也需要能够处理对象存储或某种外部存储中的数据，这样我们就能提供一个整体的、单一的视图，显示哪些数据可用、哪些数据可访问、安全性以及人们对 Teradata 系统的所有期望。”

自2020年以来，Teradata一直在对数据仓库之外的数据进行分析，当时Teradata更新了Teradata QueryGrid，并与Starburst Data合作集成了Presto连接器，这样Teradata Vantage分析平台的用户就可以访问和查询各种云数据源和本地部署数据源。

但此前Teradata坚决不认可Lakehouse的概念。2022 年，时任首席技术官Stephen Brobst在接受The Register采访时说，数据湖和数据仓库是统一架构的一部分，但却是两个不同的概念。“原始数据(即真正的数据湖)和数据产品(即企业数据仓库)是有区别的。”他说。

尽管Teradata于2022年8月推出了自己的数据湖，但Brobst表示，企业将原始数据放在哪里与数据仓库之间存在重要区别，后者可以优化查询性能并控制管理。创建一个混合Lakehouse “实际上用处不大，因为你不想拥有不必要的那么多数据副本”。

Landry说，他和今年1月离开Teradata的Brobst “关系融洽，在我十年的任职期间，一直在争论各种想法”。

“我认为我们在方法上没有改变主意。技术行业在发展，我们的目标是为客户提供最佳的集成数据解决方案。这并不是什么新鲜事，我们并不是在最近几个月才开始着手这项工作的。”

然而，一位不愿透露姓名的经验丰富的 Teradata 支持工程师告诉 The Register，他担心公司已经迷失了方向。

“无论 Teradata 是否愿意，也无论他们是否真心，他们都必须支持这个项目。”他说。

消息人士指出，在十多年前的大数据热潮中，Teradata先是抵制Hadoop的使用趋势，后来又采用了Hadoop，这是一个先例。

与此同时，拥有数据仓库和数据湖系统的云计算供应商，尤其是谷歌和微软，都在开 “空头支票”，试图将Teradata的最大客户吸引到自己的系统中来。

他说，尽管Teradata在用户并发性和查询优化方面可能拥有更优越的数据仓库产品，但只要能让客户使用云计算，他们对低效的解决方案也越来越满意。

他说，与此同时，使用对象存储和 OTF 可能无助于提高效率，但却能让用户掌握主动权。

“人们基本上都在说，‘我不在乎你叫它Lakehouse还是什么’。他们在说，我们只想把数据转存到对象存储中，然后下一步的发展就是我们想在数据所在的地方进行处理。然后，他们想要一个任何人都能使用的覆盖层，这样就不是对象存储中的专有格式了。我认为这给所有供应商都带来了很大的麻烦。让我们选择 Iceberg .....这意味着你的数据现在可以以开放格式存储在最便宜的存储设备中。从最终用户的角度来看，这是一个赢家”。

Amalgam Insights公司首席执行官兼首席分析师Hyoun Park也认为，Teradata公司被迫采用Lakehouse概念和OTF，但他表示，客户仍然看重高性能数据仓库系统。

“由于数据湖和非结构化数据在人工智能和机器学习中的重要性，Teradata被迫采用Lakehouse概念。Teradata仍然是数据仓库的首选，当然他们不得不面对Snowflake的咄咄逼人。但没有人真正怀疑Teradata能够支持高质量的企业数据仓库。”

Park 说，企业数据仓库仍然是一个好的概念，但问题是企业需要支持的数据/分析应用的数量已经迅速扩大。

支持企业 50 个应用程序的数据仓库始终会有一席之地，因为你需要一个高性能的数据存储，以尽可能快的速度支持分析，而数据仓库是实现这一点的优秀方式。

“然而，目前的挑战在于，收入超过 10 亿美元的企业通常拥有 1000 多个应用程序。要将这些其他应用程序引入数据仓库，其工作量之大令人难以承受。如果要将这些数据用于从分析到人工智能的任何用途，就必须将其余的数据放到某个地方，因此这就是数据湖的用武之地。这就迫使我们采用这种双层方法”。

依赖数据的应用程序(如机器学习和人工智能)的扩展，加上云计算和对象存储的引入，共同改变了企业数据管理和分析环境。

Snowflake 将存储和计算分离开来，Databricks 则将 SQL 风格的 BI 工作负载附加到其数据湖机器学习环境中。数据湖公司Cloudera和数据仓库供应商Tabular对市场有着不同的看法，强大的云平台提供商也是如此，它们同样声称要提供 “无所不能 ”的数据产品套件。Teradata能否在这个复杂多变的市场中茁壮成长，目前还不得而知。

作者：Lindsay Clark

关注我们