技术开发 频道

SQL Server 2008 集成服务概述

集成应用场景

SSIS的数据传输操作

尽管 SQL Server 2005 Integration Services 相对以前的版本来说已经是一个能够提供更多功能的强大产品,但许多用户发现,其通过使用向导的简单数据传输操作非常复杂,缺乏实用性。SQL Server 2008 Integration Services 提供了使用 ADO.NET 的、改进的向导和改进的用户界面,能够执行自动数据类型转换,与以前的版本相比更具可扩展性。

SSIS的数据仓库加载

从本质上讲,SSIS 是一个综合的、功能全面的 ETL 工具。与高端市场上的竞争对手相比,其功能、规模和性能非常好,而且购置费用也相对较少。数据集成管道体系结构允许同时使用来自多个源的数据,执行多种复杂的转换,然后同时将数据放置到多个目标位置。这种体系结构支持 SSIS 不仅可以用于大型数据库,也可以用于复杂的数据流。在数据从一个(或多个)源位置向一个(或多个)目标位置流动时,该结构支持拆分、合并和组合不同的数据流,以及以其他方式对数据加以控制。图 3 显示了此类数据流的一个示例。
 
SQL Server 2008 提供对 Change Data Capture (更改数据捕获,CDC)的支持,可以使用 CDC 记录在 SQL Server 表格中的插入、更新和删除操作,并且能够以一种便于使用的相关方式对细节进行更改。当使用 SQL Server 2008 Integration Services 执行某种 ETL 解决方案时,可以利用 CDC 确保在提取进程中仅包含更改的数据,从而消除了执行全部数据(包含每个 ETL 操作中的未更改数据)刷新所需的开销。

SSIS 可以通过一套称为适配器的专用组件来使用来自多种源的数据以及将数据加载到多种源,这些源包括托管的(ADO.NET)、OLE DB、ODBC、平面文件、 Microsoft Office Excel® 和 XML。SSIS 甚至可以使用来自自定义数据适配器(内部开发或由第三方提供)的数据,能够封装早期数据并将其合理地加载到数据源中,这样数据就能无缝地集成到 SSIS 数据流中。SSIS 包含一组强大的数据转换组件,用于完成构建数据仓库必需的数据操作。这些转换组件包括:

聚合:在单一传递中执行多次聚合。

排序:对数据流中的数据进行排序。

查找:执行灵活的、缓存的查找操作以引用数据集。

透视和逆透视:对数据流中透视数据和逆透视数据的两种独立转换。

合并、合并联接和全部合并:可以执行联接和合并操作。

派生列:执行列级别的操作,如字符串、数字、日期/时间操作以及代码页翻译。这一组件中包含了其他供应商的组件,因此可以使用该组件执行许多不同的转换。

数据转换:在各种类型(如数字和字符串)之间转换数据。

审核:用于添加沿袭的元数据列和其他可操作的审核数据列。

除了这些核心数据仓库转换以外,SSIS 还对高级数据仓库的需要提供支持,如提供Slowly Changing Dimensions (缓慢变化维,SCD)。SSIS 的 SCD 向导引导用户通过指定对缓慢变化维的托管要求,并根据输入的信息,生成具有多种变换的完整数据流,以执行缓慢变化维的加载。支持标准的 Type 1、2 SCD,还提供两种新的 SCD 类型(固定的属性和推断成员)。图 4 显示了 SCD 向导的一个页面。

也可以使用 SSIS 直接从数据流管道加载 Analysis Services 的多维 OLAP(MOLAP)缓存。这意味着不仅可以使用 SSIS 创建关系数据仓库,也可以使用它为分析型应用程序加载多维数据集。

SSIS和数据质量

SSIS 的关键功能之一(也是其集成数据的能力)是,通过集成不同的技术来操纵数据的能力。这种能力使 SSIS 创新性地引入了“模糊逻辑”——基于数据清理的组件。Microsoft研究实验室开发的这些组件代表了此领域的最新研究动向。该组件采取的方法是,使用一个独立的域,该域不依赖于任何特定的域数据,如地址/邮编等引用数据。这使用户可以使用这类转换清理大多数类型的数据,而不只是清理地址数据。

SSIS在 Analysis Services 中深度集成了数据挖掘功能。数据挖掘在数据集中提取模式并将它们封装到挖掘模型中。您可以使用此挖掘模型进行预测——哪些数据属于一个数据集,以及哪些数据存在异常。这样,就可以将数据挖掘用作管理数据质量的工具了。
SSIS对复杂数据路由的支持,不但有助于识别异常数据,面且能够自动用更好的值纠正和替换异常数据。这就使“关闭循环”清理应用场景得以实现。

除了内置的数据质量功能以外,用户还可以扩展 SSIS 以使其与第三方数据清理解决方案共同发挥作用。

超越传统ETL的SSIS应用

数据流管道能够操纵几乎任何类型数据的能力、与 Analysis Services 的深度集成、对多种数据操纵技术的扩展支持以及对富工作流引擎的引入,使 SSIS 可以应用于传统的 ETL 无法企及的许多应用场景。
 

0
相关文章