全面的开发环境
Office 2007对于信息工作者来说是一个理想的桌面工具,但是对于要在整个企业中部署解决方案的商业智能开发人员来说,SQL Server 商业智能开发套件是非常好的的选择,因为它具有一个基于项目的环境,并与调试和源控制完全集成,你可以用它来创建端对端的商业智能解决方案。
当然,只有当开发人员可以建立快速并轻松地满足商业需求的数据挖掘解决方案时,才能在公司内渗入数据挖掘功能。SQL Server 商业智能开发套件提供了一个全面的开发环境,它是基于Microsoft Visual Studio®开发系统的。有了商业智能开发套件,开发人员就可以创建数据挖掘结构,它辨别表和字段是否已经包含在分析中了,并添加多个将数据挖掘算法应用到这些表中的数据上的数据挖掘模型。在商业智能开发套件中的分析服务项目模板,如图2所示,包含了一个直接的用于创建和查看数据挖掘模型的数据挖掘设计器,并提供了交叉验证、提升图、以及利润图来可视化地比较和对照模型的质量,并在部署之前统计错误数和准确性。
SQL Server 2008在SQL Server 2005已经很全面的开发环境基础上,推出了一些改进之处,包括:
更有效地将数据分割为训练和测试分区。分区在创建数据挖掘模型的过程中可用。开发人员可以将一部分训练数据集标识为可随意选择用于测试。
对过滤的数据建立模型。数据过滤使得可以创建在挖掘结构中使用数据子集的挖掘模型。过滤提供了设计挖掘结构和数据源的灵活性,因为开发人员可以创建一个单独的挖掘结构,基于一个全面的数据源视图,然后应用过滤器只使用一部分数据用于训练和测试大量的模型,而不是为每一个子集建立一个不同的结构和相关的模型。例如,一个开发人员可以对Customers表和相关表定义数据源视图,建立一个单独的挖掘结构,它包含所有必需的字段,然后创建一个过滤了某个特定客户属性(例如Region)的模型。这个开发人员然后就可以轻松地拷贝这个模型,并更改过滤条件以生成一个基于不同region的新模型。通过对数据模型应用过滤器,你可以:
o 为离散值创建各自的模型。例如,o 一个衣服o 存储可以使用客户统计来根据性别建立各自的模型,o 即使销售数据是从用于所有客户的单一数据源获得的。
o 用模型做试验——创建、然后测试相同o 数据的多个分组,o 例如年龄20-30与年龄20-40与年龄20-25相比较。
o 对嵌套的数据表内容指o 定复o 杂的过滤器,o 例如要求只有当客户购买了两个或两个以上的某特定项目后才在模型中包括进这个情况。
在相同的结构中建立不兼容的模型。使用同一字段的连续或离散版本的模型可以在一个单独的结构中共存,避免了创建相同源字段多个版本的要求。
使用交叉验证同时测试多个模型。数据挖掘算法创建的模型具有许多要求不同精度和稳定性度量的应用程序。用户对这些度量的要求取决于应用程序。此外,这些度量帮助确保多种设置能够最终形成一个用于当前数据集和一个给定应用程序的非常好的模型。SQL Server 2008提供一个强大的交叉验证特性,它通过使用一个折叠技术可以同时测试一个结构中的所有模型。这使得用户在提交一个数据子集到代价高昂的处理步骤之前,可以测试其上的多种设置。交叉验证结果还告诉用户关于模型结果是否是稳定的,或者如果给定更多或更少的数据,结构是否会改变。图3显示了数据挖掘设计器中的一个交叉验证报表。
企业级性能
SQL Server 预测分析是SQL Server 分析服务的一部分,它提供了企业级服务器优点:快速开发、高可用性、出众的性能以及可扩展性、强大的安全性、以及SQL Server 管理套件中加强的管理能力。这个企业级功能意味着数据挖掘技术使得预测分析可以随着商业的发展而发展,并为任何规模的公司提供了一个高性能、可扩展的解决方案。
丰富和创新的算法
不同的公司具有不同的目标,并且需要做出不同的决策。因此,任何数据挖掘技术必须支持一组广泛的功能和算法来满足各种不同的商业需求。SQL Server 2008分析服务包括了数据挖掘技术,它支持许多丰富而创新的算法,它们中的大多数都是由Microsoft 研究所设计的,用来解决常见商业问题。此外,SQL Server分析服务的数据挖掘技术是可扩展的,使得你可以添加插件算法来满足专门针对特定公司的独特分析需求。表1显示了SQL Server 数据挖掘可以执行的一些任务。
任务 描述 算法
Market Basket Analysis 发现一起销售的项目,动态生成意见并决定产品怎样放置可以直接地对你的账目底线有帮助。 关联
决策树
Churn Analysis 预计有哪些客户可能会考虑取消他们服务,以及确认如果留住他们将会得到的收益。 决策树
线性回归
Logistic 回归
Market Analysis 通过将类似的客户一起分组来定义市场分类。使用这些分类来查找可使你获得收益的客户。 聚类
序列聚类
Forecasting 预测销售和总量,以此来了解它们的关系,从而预测瓶颈和改进绩效。 决策树
时间序列
Data Exploration 在客户间分析利润率,或者比较选择同一产品不同品牌的客户,以此来发现新的机遇。 神经网络
Unsupervised Learning 确定之前所不了解的你公司多个元素间关系来通告你的决策。 神经网络
Web Site Analysis 了解人们是怎样使用你的网站的,并将使用类似的格式分组以提供更好的体验。 序列聚类
Campaign Analysis 使目标指向最有可能对产品提高作出回应的客户,从而使得市场投入更加有效。 决策树
Nave Bayes
聚类
Information Quality 鉴别和处理数据录入和数据加载过程中的异常情况以改进信息的质量。 线性回归
Logistic 回归
Text Analysis 分析反馈以找到关系到你的客户或雇员的通用模式和趋势,使用非结构化的输入提供决策。 文本挖掘
通过SQL Server 2008实现可预测的分析
0
相关文章