技术开发 频道

浅析基于SQL Server PDW大数据解决方案

  为了便于进一步深入分析各州的降雨量预测与人口分布情况的关联,我们需要将Hadoop中的数据与PDW的数据进行联合查询及分析。如下图所示,我们首先需要在PDW中创建一个外部表External Table,将这个外部表的数据源地址指向Hadoop集群中存放人口分布数据文件的路径,并定义一些相关的元数据信息。外部表在PDW中只存储关于Hadoop中数据的一些元数据信息,并不会物理保存Hadoop的数据。

浅析基于SQL Server PDW大数据解决方案

  外部表创建完毕后,为了方便后续查询,我们可以基于这个外部表创建一个视图Create View census AS SELECT * FROM [dbo].[census_external]。通过直接运行标准的SELECT语句即可查询Hadoop中的人口分布数据信息,如下图所示。我们从返回的结果集可以看到,Hadoop中的数据包括美国各州的人口数量、家庭数量、以及超过69岁以上的人口(Pop_Age_Over_69列)等信息,如下图红色圈出。

浅析基于SQL Server PDW大数据解决方案

  我们也可以运行标准的SQL语句将指向Hadoop数据的外部表与PDW本身存储的数据表做关联查询,如把census视图和flashflood视图用keyID键关联起来,查询的结果集由PDW引擎统一返回给客户端。

浅析基于SQL Server PDW大数据解决方案

  下面我们基于常用的Microsoft Excel作为商业智能分析客户端,利用Excel的PowerPivot和PowerView功能来进行一些数据分析和决策支持。首先可以打开Excel 2013的PowerPivot管理界面,选择从SQL Server数据源导入数据。

浅析基于SQL Server PDW大数据解决方案

  在弹出的窗口中填入PDW数据库的连接信息,选择导入刚才创建的两个视图的数据。

浅析基于SQL Server PDW大数据解决方案

浅析基于SQL Server PDW大数据解决方案

1
相关文章