· 在相同的结构中建立不兼容的模型。使用同一字段的连续或离散版本的模型可以在一个单独的结构中共存,避免了创建相同源字段多个版本的要求。
· 使用交叉验证同时测试多个模型。数据挖掘算法创建的模型具有许多要求不同精度和稳定性度量的应用程序。用户对这些度量的要求取决于应用程序。此外,这些度量帮助确保多种设置形成用于当前数据集和一个给定应用程序的非常好的模型。SQL Server 2008提供一个强大的交叉验证特性,它通过使用一个折叠技术可以同时测试一个结构中的所有模型。这使得用户可以在提交一个数据子集到昂贵的处理步骤之前测试其上的多种设置。交叉验证结果还告诉用户关于模型结果是否是稳定的,或者如果给定更多或更少的数据,结构是否会改变。图3显示了数据挖掘设计器中的一个交叉验证报表。
图3:交叉验证
2.3 企业级功能
SQL Server预测分析是SQL Server分析服务的一部分,它提供了企业级服务器优点:快速开发、高可用性、出众的性能以及可扩展性、强大的安全性、以及SQL Server管理套件中加强的管理能力。这个企业级功能意味着数据挖掘技术使得预测分析可以随着商业的发展而发展,并为任何规模的公司提供了一个高性能、可扩展的解决方案。
2.4 丰富和创新的算法
不同的公司具有不同的目标,并且需要作出不同的决策。因此,任何数据挖掘技术必须支持一组广泛的功能和算法来满足各种不同的商业需求。SQL Server 2008分析服务包括了数据挖掘技术,它支持许多丰富而创新的算法,它们中的大多数都是由Microsoft 研究所设计的,用来解决常见商业问题。此外,SQL Server分析服务的数据挖掘技术是可扩展的,使得你可以添加插件算法来满足专门针对特定公司的独特分析需求。表1显示了SQL Server数据挖掘可以执行的一些任务。
任务
|
描述
|
算法
|
Market Basket Analysis
|
发现一起销售的项目,动态生成意见并决定产品怎样放置可以直接地对你的账目底线有帮助。
|
关联
决策树
|
Churn Analysis
|
预计可能会考虑取消他们服务的客户以及确认如果留住他们将会得到的收益。
|
决策树
线性回归
Logistic回归
|
Market Analysis
|
通过将类似的客户一起分组来定义市场分类。使用这些分类来查找可使你获得收益的客户。
|
聚类
序列聚类
|
Forecasting
|
预测销售和总量,以此来了解它们的关系,从而预测瓶颈和改进绩效。
|
决策树
时间序列
|
Data Exploration
|
在客户间分析利润率,或者比较选择同一产品不同品牌的客户,以此来发现新的机遇。
|
神经网络
|
Unsupervised Learning
|
确定之前所不了解的你公司多个元素间关系来通告你的决策。
|
神经网络
|
Web Site Analysis
|
了解人们是怎样使用你的网站的,并将使用类似的格式分组以提供更好的体验。
|
序列聚类
|
Campaign Analysis
|
通过使目标指向最有可能对产品提高作出回应的客户,从而使得市场投入更加有效。
|
决策树
Naïve Bayes
聚类
|
Information Quality
|
鉴别和处理数据录入和数据加载过程中的异常情况以改进信息的质量。
|
线性回归
Logistic回归
|
Text Analysis
|
分析反馈以找到关系到你的客户或雇员的通用模式和趋势,使用非结构化的输入提供决策。
|
文本挖掘
|
表1:数据挖掘任务