配置连接
23. 在Server Name(服务器名)中键入 MIAMI。选择 Use Windows Authentication(使用 Windows 身份验证),在Connect to a database(连接到数据库)选项卡上,选择 SSISTRAINING 作为数据库。单击Test Connection(测试连接),如果连接正常则单击OK,然后单击OK以关闭此对话框。
选择表
24. 从Table or View下拉列表中选择 DimClientFull。选中Compute(计算)下的所有七个属性。单击OK。
完成配置
25. 单击OK。现在配置任务已完成,可以对表进行事件探查。“Control Flow ”面板上的Data Profiling Task 不显示红色十字符号
保存解决方案
26. 单击File | Save以保存解决方案
执行包
27. 右键单击 DataProfile.dtsx,然后单击Execute Package(执行包)
包执行
28. Data Profiling Task 在执行时变为黄色,当成功完成执行后变为绿色。
停止包
29. 单击Stop(停止)符号以退出包执行模式。SSIS 已对此数据库中的数据进行了事件探查,并将结果存储在以上指定的文件中。
分析数据
30. 根据公司对数据质量的要求,需要分析数据是否符合以下几个方面
a. 每个客户端必须是唯一可识别的客户端,且不应该包括任何重复内容
b. 人口统计信息不得为空
c. 城市应包含相应的国家地区代码组合
我们现在将查看 SSIS 生成的配置文件,以验证是否满足这些要求。
使用数据配置文件查看器
31. Data profile viewer(数据配置文件查看器)是用于分析配置文件结果的工具。Start | All Programs | Microsoft SQL Server 2008 | Integration Services | Data Profile Viewer。
32. 单击Open并导航到 C:\SSISHOLS\SSIS\ProfileResults ,然后打开 ClientProfile.xml
33. 这将加载统计数据以准备好进行分析,如下所示:
企业需要
每个客户端必须是唯一可识别的客户端,且不应该包括任何重复内容
34. 单击Candidate Key Profiles(候选键配置文件)。您将看到,“Data Profiling Task ”已计算 ClientBusinessKey 列和 ClientId 列的键强度。ClientId 列的键强度为 100% 表明此列可用作键。注意,ClientBusinessKey 列似乎存在一些问题,因为键强度不是 100%。我们来仔细看一下!
35. 单击顶窗格中的 ClientBusinessKey 行。注意,在中间窗格中,您可以实际查看阻止 ClientBusinessKey 列成为键的值,以及每个值违反唯一性的次数。在这种情况下,有 9 条记录包括同一个键。(您也可以查看违规总百分比。)
36. 为什么您认为这里有 9 个键违规?也许如果您可以查看此行中的其他列,就可以推测出查出此行的原因。事实上,您可以不必退出“数据配置文件查看器”!双击值为 AW00011000 的那一行。底部窗格中显示包含违规的记录。您可以查看哪些行需要更正,以免有人将错误数据引入到存放地点!更好的方法是,您可以进入包含这些行的数据源,以找出数据质量问题并修复生成数据的过程!