技术开发 频道

SQL Server 2008 集成服务概述

SQL Server 2008 Integration Services 概述
SQL Server 技术文章

作者:Kamal Hathi
更新:Geoff Allix (内容主管)
技术审查:Ram Ramanathan
项目编辑:Joanne Hodgins
发布日期:2005年5月
更新日期:2007年11月
适用产品:SQL Server 2008

内容摘要:本文论述了依赖于数据集成技术的企业所面临的挑战,为这些企业提供了有意义的、可靠的信息,使它们在当今的商业世界中保持竞争优势。还讨论了 SQL Server 2008 Integration Services(SSIS) 如何帮助信息技术部门满足企业数据集成的需求。本文还提供真实世界的案例。 版权

这是一份预备文档,在本文档中所述软件的最终商业版本发布之前,该文档的内容可能会发生重大变化。

本文档中提供的信息代表了 Microsoft Corporation 当前(软件发布之前)对所讨论问题持有的观点。因为 Microsoft 必须响应不断变化的市场条件,所以其当前的观点不应被解释为是一种承诺,软件发布之后,Microsoft 不能保证现在所提供的所有信息准确无误。

这份白皮书仅供参考。Microsoft 对本文档中提供的信息不做任何担保、明示、暗示或法律方面的承诺。

用户有责任遵守所有适用的版权法。在版权权利限制下,未经 Microsoft 公司明确的书面许可,本文档的任何内容不能被复制、存储或放进检索系统,或者以任何形式或任何手段(电子、机械、复印、录制或其他)或为达到任何目的进行转换。

Microsoft 对本文档涵盖的主题内容可能拥有专利、专利申请、商标、版权或其他知识产权。没有来自 Microsoft 的任何书面许可协议的明确表示,本文档不赋予您对这些专利、商标、版权或其他知识产权的任何许可。

Ó 2007 Microsoft Corporation。保留所有权利。

Microsoft、Office Excel、Reporting Services、 Visual Basic 、Visual C#、Visual C++和 Visual Studio 是Microsoft Corporation 在美国和/或其他国家/地区的商标或注册商标。

导言

将企业数据转化为有意义的和可操作信息的能力,是企业在当今商业世界中获得竞争优势的唯一最重要的来源。通过控制数据爆炸来更好地了解过去并获得未来的发展方向,已成为全球范围内企业的信息技术部门所面临的最富挑战性的风险之一。与数据集成相关的问题可划分为三个大类:

技术挑战
组织问题
经济挑战

在本文中,我们将详细探讨这些挑战并讨论如何使用 Microsoft® SQL Server™ 2008 Integration Services (SSIS) 解决它们。首先,让我们先看一个真实世界案例中存在的这些挑战。

真实世界案例

一家大型的全球型运输公司利用其数据仓库来分析运营绩效和预测其计划交货中存在的差异。

数据源

这家公司的主要数据来源包括基于 DB2 的订单输入系统的订单数据,基于 SQL Server 的客户关系管理(CRM)系统的客户资料,以及基于 Oracle 的 ERP 系统的供应商数据。除了来自这些主要系统的数据以外,也有从跟踪“特别”事件的电子表格合并到数据仓库中的数据,这些数据由发货管理员手动输入。目前,该公司在合并各种来源的文本文件(如天气信息、交通状况和供应商详细资料(针对转包交付)等外部数据)时存在延迟。

数据使用

不仅这些数据的来源多种多样,消费者的需求和他们的地理位置也多种多样。这种多样性导致了本地系统的扩张。信息技术部门的主要工作之一就是,至少要为客户资料建立一个“真实的单一版本”。

数据集成要求

鉴于数据、业务需求和用户需求的多样性,信息技术部门已指定了以下一组数据集成要求:
他们提供的从各种内部和外部来源合并的历史数据和当前数据必须可靠且一致。
为减少数据采集的滞后问题,来自提供者和供应商的数据必须能够通过 Web 服务或一些其他直接机制(如 FTP)获取 。
他们需要清理及删除重复的数据以确保数据质量。
 

数据集成的挑战

在单一层面来看,数据集成问题在我们的现实场景中非常简单,即从多种源获取数据,清理和转换数据,然后将数据加载到适当的数据存储区中以用于分析和报告。遗憾的是,对于一个典型的数据仓库或商业智能项目,企业需要在其数据集成阶段花费 60~80 %的可用资源。为什么会如此艰难呢?

技术挑战

技术挑战首先来自于源系统。我们正在从收集交易(如客户承诺获取、购买或以其他方式获得东西)数据向收集预交易(如网页点击或通过 RFID 标记追踪客户意图的机制)数据转变。现在不仅可以通过传统的源和格式(如数据库和文本文件)获取数据,而且正日益可以以各种不同的格式(从专有文件到 Microsoft Office 文档以及基于 XML 的文件)和基于 Internet 的源(如 Web 服务和 RSS 流)获取数据。最具针对性的挑战是:

多种源与多种不同的格式。
结构化、半结构化和非结构化数据。
在不同时间从源系统获得的数据信息。
庞大的数据量。

在理想情况下,即使您能够设法以某种方式在一个位置获得所需的所有数据,也会面临新的挑战,包括:

数据质量。

不同数据格式的识别。

数据格式转换(转换为业务分析可用的格式)。

假设您能够通过某种方式获得所需的所有数据,并且可以清理、转换数据以及将数据映射成为一种有用的格式。即便如此,您仍然可以不使用传统的数据移动和集成方式。更确切的说,可以从一种固定的、长期的、面向成批数据的方式向不固定的、短期的、基于需求的方式转变。大多数组织在“停机时间”使用一种面向成批数据的处理方式,因为在这段时间内用户不会在系统上发出大量请求。这种方式通常会在夜间、使用一个预先定义的处理时长为 6~8 小时的批处理窗口来执行,因为此时办公室里应该没有任何人。但随着每种大小和类型的业务的日益全球化,实际的情况已并非如此。现在从全世界的企业来看,它们只有很少(如果有)的停机时间,而且无论何时总是有人会呆在办公室的某个地方。
结果您发现: 

 •尽快加载数据的压力日益加大。
 •需要在同一时间加载多个目标位置的数据。
 •目标位置存在多样性。

您不仅需要实现所有这些任务,还需要尽可能快地实现它们。例如在线业务就是一种极端的情况,

这种企业必须持续集成数据。但是,实际的批处理窗口操作时间和滞后时间总会超时数分钟。许多这种情形下的决策过程是使用持续运行的软件自动完成的。

面对不允许有任何停机时间的业务需求,可扩展性和性能变得越来越重要。

如果没有适当的技术,那么在入库和集成处理的每个步骤,系统几乎都需要分段处理。由于在提取、转换和加载(Extract, Transform and Load, ETL)的处理中需要合并不同的(特别是非标准的)数据源,而且需要执行更复杂的操作(如数据挖掘和文本挖掘),这加大了对数据分段处理的需要。举例来说,在图 1 中,由于进行分段处理,使“关闭循环”(即开始分析并处理新数据)进程所用时间也相应增加。这些传统的 ELT 体系结构(与加载之前发生的增值 ETL 进程相对)为应对新出现的业务需求,对系统能力施加严格的限制。 
 
最后,当你既需要针对应用程序整合的实时事务处理技术、又需要针对海量数据的集成技术来解决企业业务问题时,如何将数据紧密集成到公司的整体集成架构中,就变得更加重要。

组织挑战

在大型组织中进行数据集成存在两大问题,这就是“权力”挑战和“舒适地带”挑战。

“权力”挑战
数据就是力量,通常要使人们相信数据是一个公司的真正有价值的共有资产很困难。要使企业的数据集成获得成功,那么多个数据源的全部所有者都必须了解项目的用途和动向。有关各方缺乏合作是造成数据集成项目失败的一个主要原因。行政部门的帮助、达成的共识,以及强大的数据集成团队和多方相关人员是决定成功与否的少数关键因素,这些因素可以帮助解决问题。
 
“舒适地带”挑战
在以多种方式分析孤立的需求时,可以解决数据集成的挑战。手动编码解决了约60%的数据集成问题。可用于解决类似问题的技术包括从复制、ETL、SQL 到企业应用程序集成(EAI)。人们总是倾向于使用他们熟悉的技术。虽然这些技术的功能有些重复,而且或许它们也能够独立完成任务,但我们可以优化这些技术,使它们能够解决各式各样的问题。当尝试解决企业数据集成的问题时,如果缺乏健全的体系结构及适当的技术选择,则可能导致失败。

经济挑战

本文前面概述的与组织和技术相关的问题,共同导致了数据集成成为任何数据仓库/商业智能项目的最昂贵部分。导致数据集成成本增加的主要因素是:

以数据集成必需的格式来获取数据的过程,最终变成了一个充满组织权力游戏的缓慢而曲折的过程。
清理数据以及从多种源将数据映射为一种连贯的、有意义的格式极其困难。

标准的数据集成工具往往不能提供足够的功能或可扩展性来满足项目的数据转换要求。这可能会导致需要对为了完成任务而开发特殊ETL代码所发生的咨询费用支付巨额金钱。

公司的不同部门都在关注数据孤岛中的数据集成问题。
当需要集中解决这些问题时,这些数据集成方面的努力所引起的额外费用将会纳入全企业范围的数据集成体系结构。
随着组织发展过程中对数据入库和商业智能需求的增加,有缺陷的数据集成体系结构将变得越来越难以维护,总体拥有成本也会激增。
 

SQL Server 2008 Integration Services

在传统的以ETL为中心的数据集成中,标准的数据源仍然是大多数数据仓库的核心。然而,包括更加多样化的数据源、法规要求以及全球和在线业务在内的各种需求,正迅速地改变着对数据集成的传统要求。在这个快速发展及不断变化的背景下,从数据提取价值的需要和对这种需要的依赖能力变得比以往更加重要。有效的数据集成已成为制定有效决策的基础。SQL Server Integration

Services 提供了一个灵活、快速及可扩展的体系结构,能够对当前业务环境的数据进行有效集成。

在本文中,我们将探讨 SQL Server Integration Services (SSIS)如何成为一个有效的工具包,如何能在满足传统的 ETL 操作需求的同时满足多方面数据集成不断变化的需求。我们还将讨论 SSIS 与主要的 ETL 提供商所提供的工具和解决方案的根本区别。SSIS 能够极好地满足全球企业(从最大的企业到最小的企业)不断变化的需求。

SSIS体系结构

任务流和数据流引擎
SSIS 既包含一个面向操作的任务流引擎,也包含一个可扩展的快速数据流引擎。数据流存在于一个总体任务流的环境中。任务流引擎为数据流引擎提供运行时资源和操作支持。任务流和数据流的这种组合,使 SSIS 能够有效地作用于传统的 ETL 或数据仓库(DW)应用场景以及许多其他扩展的应用场景(如数据中心操作)。在本文中,我们将主要关注与数据流相关的应用场景。SSIS 用于面向数据中心的工作流时,是另外一个单独的主题。

管道体系结构

SSIS 的核心是数据转换管道。这个管道有一个面向缓冲区的体系结构,一旦数据被加载到内存中,该体系结构能够异常快速地操纵数据行集。方法是,在一次单一操作中执行 ETL 进程中的所有数据转换,而不是分段处理数据,尽管存在特定的转换或操作需求,或者硬件也可能会成为障碍。为了获得非常好的性能,该体系结构需要避免分段处理数据。SSIS 甚至尽量避免从内存中复制数据。相比之下,传统的 ETL 工具往往需要在入库和集成进程的几乎每个步骤都分段处理。不分段操纵数据的能力超越了对关系数据和平面文件数据的传统处理能力,也超越了传统的 ETL 转换功能。SSIS 能将所有类型的数据(结构化、非结构化和 XML 等)在被加载到其缓冲区之前转换为一种表格结构(列和行)。能够应用于表格数据的任何数据操作,也能够应用于数据流管道中任何步骤的数据。这意味着,一个单一的数据流管道能够集成各种不同来源的数据,并且能够执行任何复杂的操作,而不必分段处理数据。

请注意,如果出于业务或操作方面的原因需要进行分段处理,SSIS 也能对这些任务的执行提供良好支持。

这种体系结构支持在各种数据集成应用场景(从传统的面向 DW 的 ETL 到非传统的信息集成技术)中使用 SSIS。

ADO.NET 连接

集成服务解决方案的一个重要方面是提取或加载数据。因此,集成解决方案能够无缝连接到多种数据源是非常重要的,这样可以通过全面的数据接入平台获得非常好的的性能和可靠性收益。SQL Server 2008 Integration Services 已针对 ADO.NET 连接(以前的版本是针对 OLE DB 或 ODBC 进行优化)进行优化。与 ADO.NET 的连接改善了对系统集成和对第三方的支持。SQL Server 2005 Integration Services 是使用 OLE DB 完成重要任务(如查找),但现在用户可以针对任务、源组件和目标组件使用 ADO.NET。

线程池

集成解决方案需要扩大规模,但当它达到一定规模之后,要改善性能就变得非常困难。SQL Server 2008 Integration Services 通过在多个组件之间共享线程打破了这种限制,从而提高了并行度,减少了堵塞。因此,高度并行、多处理器和多核心系统在很大程度使性能获得提高。

在大部分系统的性能获得提高的同时,线程池也减少了手动配置 SSIS 包来增加并行性的需要,从而提高了开发人员的工作效率。
持续查找

执行查找是集成解决方案中最常见的操作之一。在数据入库时查找操作尤为普遍,因为事实记录是通过查找将业务键转换为它们相应的代理。SQL Server 2008 Integration Services 提高了查找操作的性能以相应满足最大表格的需要。

在处理输入列之前,可以将查找转换设定为缓存部分或全部引用数据。SQL Server 2008 Integration Services 能够从任何源加载全部缓存,并允许缓存大小超过 4GB,即使在 32 位操作系统上也是如此。通过利用部分缓存,SQL Server 2008 Integration Services 能够通过使用数据流预加载查找操作。部分缓存支持 OLEDB、ADO.Net 和 ODBC 的数据库查找,而且能够跟踪查找结果和查找失误。如果不选择对引用数据预先加载缓存,SQL Server 2008 Integration Services 也支持对成批数据库的调用和区分大小的匹配。
 

集成应用场景

SSIS的数据传输操作

尽管 SQL Server 2005 Integration Services 相对以前的版本来说已经是一个能够提供更多功能的强大产品,但许多用户发现,其通过使用向导的简单数据传输操作非常复杂,缺乏实用性。SQL Server 2008 Integration Services 提供了使用 ADO.NET 的、改进的向导和改进的用户界面,能够执行自动数据类型转换,与以前的版本相比更具可扩展性。

SSIS的数据仓库加载

从本质上讲,SSIS 是一个综合的、功能全面的 ETL 工具。与高端市场上的竞争对手相比,其功能、规模和性能非常好,而且购置费用也相对较少。数据集成管道体系结构允许同时使用来自多个源的数据,执行多种复杂的转换,然后同时将数据放置到多个目标位置。这种体系结构支持 SSIS 不仅可以用于大型数据库,也可以用于复杂的数据流。在数据从一个(或多个)源位置向一个(或多个)目标位置流动时,该结构支持拆分、合并和组合不同的数据流,以及以其他方式对数据加以控制。图 3 显示了此类数据流的一个示例。
 
SQL Server 2008 提供对 Change Data Capture (更改数据捕获,CDC)的支持,可以使用 CDC 记录在 SQL Server 表格中的插入、更新和删除操作,并且能够以一种便于使用的相关方式对细节进行更改。当使用 SQL Server 2008 Integration Services 执行某种 ETL 解决方案时,可以利用 CDC 确保在提取进程中仅包含更改的数据,从而消除了执行全部数据(包含每个 ETL 操作中的未更改数据)刷新所需的开销。

SSIS 可以通过一套称为适配器的专用组件来使用来自多种源的数据以及将数据加载到多种源,这些源包括托管的(ADO.NET)、OLE DB、ODBC、平面文件、 Microsoft Office Excel® 和 XML。SSIS 甚至可以使用来自自定义数据适配器(内部开发或由第三方提供)的数据,能够封装早期数据并将其合理地加载到数据源中,这样数据就能无缝地集成到 SSIS 数据流中。SSIS 包含一组强大的数据转换组件,用于完成构建数据仓库必需的数据操作。这些转换组件包括:

聚合:在单一传递中执行多次聚合。

排序:对数据流中的数据进行排序。

查找:执行灵活的、缓存的查找操作以引用数据集。

透视和逆透视:对数据流中透视数据和逆透视数据的两种独立转换。

合并、合并联接和全部合并:可以执行联接和合并操作。

派生列:执行列级别的操作,如字符串、数字、日期/时间操作以及代码页翻译。这一组件中包含了其他供应商的组件,因此可以使用该组件执行许多不同的转换。

数据转换:在各种类型(如数字和字符串)之间转换数据。

审核:用于添加沿袭的元数据列和其他可操作的审核数据列。

除了这些核心数据仓库转换以外,SSIS 还对高级数据仓库的需要提供支持,如提供Slowly Changing Dimensions (缓慢变化维,SCD)。SSIS 的 SCD 向导引导用户通过指定对缓慢变化维的托管要求,并根据输入的信息,生成具有多种变换的完整数据流,以执行缓慢变化维的加载。支持标准的 Type 1、2 SCD,还提供两种新的 SCD 类型(固定的属性和推断成员)。图 4 显示了 SCD 向导的一个页面。

也可以使用 SSIS 直接从数据流管道加载 Analysis Services 的多维 OLAP(MOLAP)缓存。这意味着不仅可以使用 SSIS 创建关系数据仓库,也可以使用它为分析型应用程序加载多维数据集。

SSIS和数据质量

SSIS 的关键功能之一(也是其集成数据的能力)是,通过集成不同的技术来操纵数据的能力。这种能力使 SSIS 创新性地引入了“模糊逻辑”——基于数据清理的组件。Microsoft研究实验室开发的这些组件代表了此领域的最新研究动向。该组件采取的方法是,使用一个独立的域,该域不依赖于任何特定的域数据,如地址/邮编等引用数据。这使用户可以使用这类转换清理大多数类型的数据,而不只是清理地址数据。

SSIS在 Analysis Services 中深度集成了数据挖掘功能。数据挖掘在数据集中提取模式并将它们封装到挖掘模型中。您可以使用此挖掘模型进行预测——哪些数据属于一个数据集,以及哪些数据存在异常。这样,就可以将数据挖掘用作管理数据质量的工具了。
SSIS对复杂数据路由的支持,不但有助于识别异常数据,面且能够自动用更好的值纠正和替换异常数据。这就使“关闭循环”清理应用场景得以实现。

除了内置的数据质量功能以外,用户还可以扩展 SSIS 以使其与第三方数据清理解决方案共同发挥作用。

超越传统ETL的SSIS应用

数据流管道能够操纵几乎任何类型数据的能力、与 Analysis Services 的深度集成、对多种数据操纵技术的扩展支持以及对富工作流引擎的引入,使 SSIS 可以应用于传统的 ETL 无法企及的许多应用场景。
 

面向服务的体系结构

SSIS 支持在数据流管道中使用 XML 数据,这类数据可以是来自磁盘文件的数据,也可以是通过HTTP 获取的 URL 数据。XML 数据能够被“细分”成为表格数据,然后SSIS就可以在数据流中轻松地操纵它们。这种对 XML 的支持能够与对 Web 服务的支持相互配合。SSIS 能够与控制流中的 Web 服务相互作用以捕获 XML 数据。

可以从文件中、从 Microsoft Message Queuing (Microsoft 消息队列任务,MSMQ)中以及通过 HTTP 从整个 Web 上捕获 XML 数据。SSIS 支持使用 XSLT、 XPATH 和 diff/merge 等操纵 XML 数据,而且可以将 XML 数据集成到数据流中。
这种支持使 SSIS 成为灵活的、面向服务的体系结构(SOA)的一部分。

数据挖掘和文本挖掘
 

SSIS 不仅在Analysis Services中深度集成了数据挖掘功能,它还提供文本挖掘组件。文本挖掘(也称为文本分类)涉及到识别业务类别与文本数据(单词和短语)之间的关系。它允许在文本数据中搜索关键字词,并且基于此自动识别“感兴趣的”文本。这能够进一步推动“关闭循环”操作的实施,从而实现业务目标,如提高客户满意度及提高产品和服务的质量。
按需数据源

SSIS 的独特功能之一是 DataReader 目标,用于将数据存入 ADO.NET DataReader 中。当数据流管道中包含此组件时,可以使用包含 DataReader 目标的包作为数据源,并将该数据源暴露为一个 ADO.NET DataReader。因此,不仅可以将 SSIS 用作传统的 ETL 加载数据仓库,还可以将它用作数据源,用以按照需要从多个源交付集成的、一致的数据,以及清理数据。例如,您可能会使用 SSIS 包作为其数据源,通过此方法帮助 Reporting Services 从多个不同的数据源上获取数据。

集成了所有这些功能的一个可能的应用场景是,从 RSS 源识别和提交有趣的文章作为常规报告的一部分。图7显示了一个通过 Internet 从 RSS 源获取数据的 SSIS 包,该 SSIS 包从一个 Web 服务上集成数据,执行文本挖掘以从 RSS 源上找到有趣的文章,然后将有趣的文章放入一个 DataReader 目标,最后在Reporting Services 报告中使用该文章。

从 ETL 工具的角度来看,该应用场景非常与众不同,因为它没有进行数据的提取、转换和加载。

SSIS 作为集成平台

SSIS 超越 ETL 工具之处不仅在于它可以使用非传统的应用场景,而且在于它是一个可以进行数据集成的真正平台。SSIS 是 SQL
Server Business Intelligence(BI)平台(开发端到端的双向应用)的一部分。

集成的开发平台

SQL Server Integration Services、Analysis Services 和 Reporting Services 都使用一个共同的基于 Microsoft Visual Studio ® 的开发环境,即 SQL Server Business Intelligence (BI) Development Studio。BI Development Studio 为 BI 应用程序的开发提供了一个集成的开发环境(IDE)。这个共享的基础结构支持在各种开发项目(集成、分析和报告)之间进行元数据级的集成。这种共享构造的一个示例是数据源视图(DSV),DSV 是数据源的脱机架构/视图定义,可应用于所有这三种项目类型。

IDE 提供与版本控制软件(如 VSS)等进行集成的设施,也支持基于团队的功能(如“签入/签出”),因此,它能够满足商业智能应用程序对企业级的、面向团队的、开发环境的需求。图 9 显示了一个包含集成、分析和报告项目的 BI Development Studio 解决方案。

这不仅提供了一个开发 BI 应用程序的单一位置,还可用于开发其他 Visual Studio 项目(使用Visual C#®、Visual Basic® .NET 等),从而为开发人员提供了一种真正的端到端的开发体验。

除了提供一种集成的 BI 开发环境以外,BI Development Studio 还具有对 SSIS 包进行准确的运行时调试的功能,包括设置断点的能力及对标准开发构造(如观察变量)的支持。一个真正独特的功能是数据查看器,当 Integration Services 处理数据流管道中的数据时,可以使用数据查看器查看多行数据。这种数据的可视化可以以常规文本网格的形式表示,也可以以图形(如散点图或条形图)表示。实际上,可以连接多个查看器,以便同时以多种格式显示数据。图 10 显示了使用散点图和文本网格表示可视化地理数据的一个示例。

可编程性

除了提供专业的开发环境以外,SSIS 还通过一套 API 展示了其所有功能。这些 API 既有托管的(.NET Framework),也有本机的(Win32),允许开发人员通过以任何 .NET Framework 支持的语言(如 Visual C#、Visual Basic .NET 等)和 Visual C++ 支持的语言开发自定义组件来扩展 SSIS 的功能。这些自定义组件可以是工作流任务和数据流转换(包括源适配器和目标适配器)。这样,在 SSIS 集成进程中就能轻松地包含早期的数据和功能,从而能够使过去投资的传统技术仍然发挥作用。SSIS也能容易地包含第三方组件。

脚本

本文前面提到的可扩展性并非只能从可以再度使用的自定义组件获得,还可以获得基于脚本的可扩展性。SSIS 既有针对任务流的脚本组件,也有针对数据流的脚本组件。它们都允许用户用 Visual Basic. NET 语言编写脚本以添加即席功能(包括数据源和目标)以及重新使用封装为 .NET Framework 程序集的任何现有功能。

SQL Server 2008 包含用于应用程序的 Visual Studio 工具,该工具提供一种脚本环境,可以使用Visual Basic .NET 或 C# 执行脚本组件。

具有可扩展性的模型使 SSIS 不仅是一个数据集成工具,还是一个集成总线,可以容易地集成像数据挖掘、文本挖掘和统一维度模型(UDM)这样的技术,以实现包含非常任意的数据操纵和结构的复杂集成应用场景。
使数据集成更容易完成

SSIS 体系结构的灵活性和可扩展性,使它可以解决在本文前面提及的数据集成所面临的大部分技术挑战。如图 12 所示,SSIS 消除了不必要的分段处理(或者至少使之最小化)。因为是在单一管道操作中执行复杂的数据操纵,现在它能对数据的变化和模式迅速作出反应,而且使用一种对关闭循环和执行操作适用的时间框架。相比之下,就关闭循环和对数据执行适当的操作而言,依赖于数据分段处理的传统体系结构就显得不切实际。

SSIS 的可扩展特性使组织能够通过将自定代码作为可以再度使用的扩展封装到 SSIS 中,并在此基础上充分利用日志记录、调试和 BI 集成等功能,从而将他们在自定义代码方面的现有投资用于数据集成。这非常有助于克服本文前面提及的某些组织挑战。

与其他高端数据集成工具相比,SQL Server 产品中包含的 SSIS 的购置成本显得非常合理。不仅初次购置成本下降,而且通过与 Visual Studio 和其他 SQL Server BI 工具的紧密集成,SSIS的应用程序开发和维护的成本相对其他类似的工具而言也显著下降。

SSIS(以及 SQL Server 的其他组件)极为合理的总体拥有成本(TCO),使企业级的数据集成能够适用于所有的细分市场,而不再是专用于最大(和最富有的)的公司。同时,SSIS 的体系结构适合利用新式的硬件,其提供的性能和规模能够满足最高端客户的需求。SSIS 能够使所有客户(从最高端的企业到小型和中型企业)实现丰富的、可扩展的数据集成。由于与 SQL Server 中的其他功能和Microsoft 的客户支持基础结构(从广泛的、长期的 beta 测试到丰富的联机社区,再到主要支持合同)的结合使用,以及与其他 Microsoft 产品的集成,使 SSIS 真正成为一个独特的工具包,它为数据集成开辟了新的领域。

结束语
在当今的商业世界中,许多企业都依赖于数据集成技术来提供有意义的、可靠的信息以维持其竞争优势。SQL Server 2008 Integration Services (SSIS)能够帮助信息技术部门满足企业进行数据集成的需要。SQL Server 2008 Integration Services 能够清理、转换,以及将海量的多种数据源映射成为有用的格式。新增功能在改善其扩展能力和提高性能的同时,加快了开发速度并降低了 TCO。


获取更多信息
http://www.microsoft.com/sql/technologies/integration/default.mspx

本文对您有帮助吗?请告诉我们您的感受。如果从 1 (差)到 5 (极好)的分值中进行选择,您认为本文应该打几分?原因是什么?例如:
您是否认为由于提供了很好的例子、精美的屏幕截图、清晰的文字描述或其他原因而应该给它高分?
您是否认为由于用例不当、屏幕截图模糊、文字描述含混不清而应该给它低分?
您的意见将有助于我们改善所发布白皮书的质量。提交意见。
 

0
相关文章