数据库 频道

如何进行实时ELT解决方案选型?

当今世界一个企业的竞争优势取决其创新能力以及能否适应快速变化的环境。要做到这一点,企业必须以实时思维来设计、开发和维护其数据基础设施。

最重要的是,这意味着放弃点对点的集成和过时的批处理方法,这些方法缺乏必要的速度和灵活性来支持当今世界的竞争优势。

实时提取、加载、转换(ELT)软件解决了集成难题中的一个关键缺失部分。虽然市场上有很多以工作流程为导向的SaaS集成工具,但几乎没有一个能实现从ERP等骨干系统中提取大量交易数据并将其交付给云分析平台,且能立即投入使用。

变更数据捕获(CDC)是这种大批量、实时整合的共同起点。CDC是快速有效的,因为它是由日志活动驱动,而不是比较和同步大型数据集。不幸的是,只有少数ELT解决方案能够满足当今企业所需要的那种即时、大批量交易集成的所有要求。

在实时ELT解决方案中需要注意什么?

通过对解决现代数据堆栈中的差距的关键特征进行过滤,很容易识别正确的ELT工具。以下是你选型时应该问的问题:

  • 它是否提供了广泛的企业连接器?围绕现代数据堆栈的生态系统提供了一系列不同的工具来与SaaS应用程序集成,但对于企业数据存储,如ERP、记录系统或其他大型数据库,可用的连接器相对较少。一个真正的企业级ELT工具产品应该包括所有系统的预构建连接器,包括OLTP、OLAP和云平台。这是一个核心要求,因为它首先消除了数据孤岛。随着企业的发展,广泛的数据连接器也有助于保护企业的未来,使你能够灵活地采用一系列新的系统,而不必担心互操作性问题。

  • 它是否能保证防止数据丢失?寻找一个能提供内置数据一致性和数据验证的ELT工具。当管道崩溃时,数据的完整性是否会因为错过交易或重复而受到影响?或者,该解决方案是否能保证100%完整和准确地数据传输,并且没有数据损失?询问该工具是否有内置的检查点和重启能力,这样你的企业就不会错过一个交易。每一个变化都必须准确地从源头传递到目标,并且完全准确。随着公司开始越来越多地依赖人工智能和机器学习,数据丢失的后果可能是灾难性的。即使是少量的数据漂移也会侵蚀这些技术的准确性,导致负面的商业结果。

  • 它是否降低了源应用程序的性能?一个好的ELT工具应该能够在交易日志的基础上进行变更数据捕获。它不应该依赖对源数据库无休止地查询来检测变化。最好的ELT解决方案不会降低源系统的性能,也不会在读取数据时给生产数据库打上时间戳。CDC解决方案可以是基于日志、基于时间戳或基于校验的。基于日志的CDC工作时不会对源系统产生不利影响,因为它只读取事务性变化流和日志。它是快速、可靠、安全和低影响的。

  • 它是否可以实现流式管道的零维护?对于一些集成平台,模式的变化可能导致需要停止数据流,并在管道的两端手动重新配置模式。通常情况下,这需要一个工程师团队随时待命,监测变化并在管道损坏时进行修复。最好的ELT解决方案通过自动处理模式变化和演变,使维护数据管道变得容易。

  • 它的安全性如何?数据在传输过程中必须加密,以保护个人身份信息(PII)数据和其他敏感信息。一个好的ELT解决方案将简化这一过程,因此这些数据可以得到有效和高效地处理,完全符合监管准则。

  • 它是否可以扩展?随着一个组织的成长,它的数据整合要求也会随之增加。如果你的ELT解决方案不能处理大量数据,你的整个数据基础设施将被置于风险之中。一个强大的ELT解决方案应该提供内置的自动扩展和性能优化功能来适应数据增长。它应该能够处理高容量、高速度和高变化的数据。在云时代,企业必须能够根据需求自动扩展和减少资源,ELT平台也不例外。

考虑完以上问题后,有很多ELT解决方案会被pass掉。不过,这并不是说没有一些好的ELT解决方案可供选择。大多数至少有一两个主要缺点,你需要做功课,以确定适合你的。

在ELT领域,有几个非常好的竞争者,但相对来说,能够处理大量交易数据并保证交付的云原生CDC产品很少。由于ELT在现代数据堆栈中发挥着如此关键的作用,做足功课并深入了解细节是很重要的。

作者Rajkumar Sen是Arcion的创始人和首席架构师

0
相关文章