数据库 频道

2024 年大数据领域的关键预测

应对大数据的挑战迫在眉睫,我们如何存储、管理、治理和使用大数据,从未像现在这样紧迫。人工智能的进步可能会成为 2024 年的驱动力,但如果您的大数据失控,AI又能如何呢。

在新的一年里,大数据会给我们带来什么?这谁也说不准,因为过去的事实证明未来很难预测。关于大数据预测,我们向业界专家求教。

数据库提供商 Percona 的技术传道者 Dave Stokes 说,人们对向量数据库的兴趣会激增。不过,这不会一直持续。

“向量数据库将成为许多人讨论的热门新领域,但几年后最终会被关系数据库所取代。”Stokes预测说,“每隔 10 年左右,就会有一种‘新’数据库技术被宣称为关系数据库的终结者,而开发人员在加入这一行列后才会重新发现,关系模型非常灵活,关系数据库供应商可以轻松地将新技术应用到自己的产品中。”

不同数据孤岛的存在一直是数据工程师的心头之痛。不过,据 Hammerspace 市场营销高级副Molly Presley称,随着集中式数据编排的发展,2024 年将带来一线希望。

“企业将开始从‘存储和复制’转向数据编排(data orchestration)的世界,”Presley说。“在人工智能进步的推动下,现在已经有了强大的工具来分析数据并提出可行的见解。然而,文件存储基础架构并没有跟上这些进步的步伐。与那些试图通过将文件副本从一个地方移动到另一个地方来管理存储孤岛和分布式环境的解决方案不同,数据编排可以帮助企业将数据从不同的孤岛和位置整合到一个单一的命名空间中,并在数据最有价值的时间和地点自动放置数据,使其更易于分析和得出见解。”

我们存储的大部分数据都是非结构化数据。MinIO 联合创始人兼首席执行官 Anand Babu "AB" Periasamy 表示,随着数据的堆积,管理数据将成为一项真正的挑战,但 2024 年将带来管理数据的新方法。

“2024年,随着人工智能应用的飞速发展,我们将看到真正的非结构化数据(音频、视频、会议记录、会谈、演示文稿)的爆炸式增长。从人工智能的角度来看,这些内容具有很强的‘可学习性’,将其收集到人工智能数据湖中将大大提高整个企业的智能能力,但同时也会带来独特的挑战,”Periasamy 说。“在保持数十 PB 的性能方面存在明显的挑战。传统的 SAN/NAS 解决方案通常无法解决这些问题,它们需要具备现代高性能对象存储的属性。这就是为什么大多数 AI/ML 技术(如 OpenAI、Anthropic、Kubeflow)都使用对象存储的原因,也是为什么大多数数据库都转向以对象存储为中心的原因。”

根据 Forrester 的数据,企业管理的非结构化数据将在 2024 年翻一番,这为人工智能开辟了潜在的利润丰厚的新选择。

“全球数据和分析决策者表示,他们组织管理的数据中只有 27% 是非结构化数据。”随着企业为客户和员工推出更多对话式体验,生成式人工智能将使这一比例翻番。企业将争先恐后地存储、分析和理解这些大量的非结构化数据。这一趋势将体现在数据管道领域,2024 年新建数据管道的 80% 将用于非结构化数据的摄取、处理和存储。

Faction, Inc.技术和运营副总裁Jeff Heller说,2024年,全球许多企业将实施数据优先架构,以简化数据管理战略。

“公司正在经历范式转变;他们要么选择一个云,要么选择一个架构来满足他们的需求,”Heller说,“2024年,企业将需要研究什么样的云最适合他们,以充分利用他们的数据。基于短期目标而非长期增长做出的决策将导致数据锁定。数据需要准确且可访问,以便及时做出决策。对于企业来说,数据管理正变得越来越复杂。高效的数据管理战略至关重要。企业将转向能够从所有云的首选位置访问单一数据集的解决方案,以确保数据的准确性并提高效率。”

数据管道商店 Matillion 的首席产品官 Ciaran Dynes 表示,人工智能革命正在触及生活的方方面面,包括大数据管理。

“在过去的十年里,数据工程师的角色发生了翻天覆地的变化。”Dynes说,未来 12 个月将是科技公司简化数据工程师生活的一年。市场上将出现各种工具,这些工具将被集成到现有平台中,以便将生成式人工智能添加到现有数据管道中,并能够在内部部署这些模型,这样用户就可以像使用 ChatGPT 一样与这些模型进行实时交互。无论市场上出现什么样的工具,明年都会出现对数据工程师的巨大需求,他们需要接受再培训以掌握提示工程、如何微调这些模型以及如何大幅提高生产率。明年,数据工程师的生活将变得更加有趣。

Snowflake 产品管理总监Jeff Hollan认为,到 2024 年,您将更加重视数据工程师。

“很多人都在谈论人工智能革命将取代数据工程师的角色。”Hollan 说,“事实并非如此,事实上,他们的数据专业知识将比以往任何时候都更加重要,只是以新的和不同的方式工作而已。为了跟上不断变化的形势,数据工程师需要了解生成式AI如何增加价值。数据工程师建立和管理的数据管道也许将是企业与大型语言模型连接以释放价值的第一个地方。数据工程师将是了解如何使用模型并将其插入数据管道以自动提取价值的人。他们还需要监督和理解人工智能工作。”

当你的数据由第三方在云端管理时,你可能会觉得自己的数据失去了控制。Ngrok公司首席技术Peter Shafton预测,2024年将是你开始夺回数据控制权的一年。

“2024年的数据管理将明显转向更高的可访问性和控制性,”Shafton说。过去十年间,人们纷纷涌向基于云的数据解决方案,而现在,钟摆又开始摆向更多的自我管理。这种转变背后有两个原因:隐私和成本效益。数据泄露的持续威胁和对更严格访问控制的需求,使企业对完全依赖外部云平台持谨慎态度。此外,云数据存储和处理成本的不可预测性也促使企业寻求更具可预测性和成本效益的解决方案。这种趋势还得益于可访问和用户友好型数据管理工具的激增,这些工具通常源自 Uber、Netflix 和 Airbnb 等科技巨头率先推出的开源解决方案。

几年来,“数据智能”(data intelligence)一词不断发展壮大,指的是企业为其数据提供的各种数据管理工具。Nasuni公司首席创新官Jim Liddle说,未来12个月将是这一概念的成败关键期。

“许多公司存储大量数据,仅仅是因为他们不知道数据中包含了什么,或者他们是否需要这些数据。”Liddle 说,“数据是否准确和最新?是否正确分类并可‘搜索’?是否合规?是否包含个人身份信息(PII)、受保护健康信息(PHI)或其他敏感信息?是否按需提供或存档?在未来一年中,所有公司都将被迫接受人工智能对数据质量、治理、访问和存储的要求,然后才能推进数字化转型或改进计划,从而获得理想的竞争优势。”

Coalesce 公司首席执行官兼联合创始人 Armon Petrossian 表示,如果不能保持数据的质量和完整性,那么你就可以与 2024 年的 GenAI 计划说再见了。

“2024年,随着数据从有价值的资产演变为蓬勃发展的企业的生命线,技术领域将见证一场变革性的转变,”他说。“忽视数据质量、完整性和数据血缘的组织将面临挑战,不仅要做出明智的决策,还要充分发挥生成式人工智能、LLM和ML应用程序及用例的潜力。随着时间的推移,我预测,随着新一年的到来,那些忽视构建强大的数据基础和战略的组织将发现,在快速发展的科技行业中保持领先地位越来越具有挑战性。那些无法适应并优先考虑数据基础的企业将难以超越竞争对手,甚至可能在这个竞争激烈的环境中面临生存风险。”

数据血缘构成了持续的挑战。Altair 云计算首席工程师 Yeshwant Mummaneni 预测,2024 年,区块链将成为救星。

“随着AI/ML模型在关键决策中扮演关键角色,无论是受到人类监督还是在完全自主的方式下,模型的可追溯性/来源变得至关重要,”Mummaneni说。“区块链的基础技术使得记录的不可篡改性、数字身份、签名和验证成为可能,并利用密码学实现这一目标,这将成为企业AI提供防篡改模型来源的关键方面。”

SAS公司的高级分析产品经理Spiros Potamitis表示,合成数据将是2024年另一项蓬勃发展的数据趋势。

“随着企业面临更严格的监管,跨国共享敏感数据变得更具挑战性,合成数据将得到广泛应用。”Potamitis说,“合成数据可以高精度地捕捉原始数据源的统计属性,从而克服监管障碍,为企业带来创新。”

ALTR 首席执行官James Beecham认为,虽然您的大数据存储库看上去是正确的,但 2024 年将是数据治理“左移”的一年。

“企业将在数据旅程的早期阶段,即云数据仓库左侧实施数据治理和安全措施,这不仅可以保护敏感信息,还可以提高所收集数据的整体质量,”Beecham说。“随着数据隐私和安全方面法规的增加,优先考虑数据治理和安全的企业将更好地遵守这些法规。在2024年,预计将有越来越多的公司优先关注左移数据治理和安全——使他们能够启动强大的数据访问治理和云数据仓库和Lakehouse中的数据安全功能,并将其扩展到源系统中的数据。”

Denodo 首席执行官 Angel Viña 说,2023 年,数据网格(Data Mesh)在其他技术趋势面前有点退居二线(大家的目光在GenAI),但在 2024 年,数据网格的优势将变得格外明显,不容忽视。

“2024年将是数据网格崛起的转折点,它顺应了数据的内在分布式特性,”Viña说。“在数据网格中,IT的角色转变为为数据领域的工作提供基础,即在整个企业中创建和分发数据产品。转折点是人们意识到,数据产品应与其他产品一样被视为同等重要的产品……在以数据为中心的时代,仅仅对数据进行包装是不够的;企业需要提升整个终端用户体验。”

作者:Alex Woodie

3
相关文章