技术开发 频道

使用SQL Server 2008进行预测分析


· 在相同的结构中建立不兼容的模型。使用同一字段的连续或离散版本的模型可以在一个单独的结构中共存,避免了创建相同源字段多个版本的要求。
· 使用交叉验证同时测试多个模型。数据挖掘算法创建的模型具有许多要求不同精度和稳定性度量的应用程序。用户对这些度量的要求取决于应用程序。此外,这些度量帮助确保多种设置形成用于当前数据集和一个给定应用程序的非常好的模型。SQL Server 2008提供一个强大的交叉验证特性,它通过使用一个折叠技术可以同时测试一个结构中的所有模型。这使得用户可以在提交一个数据子集到昂贵的处理步骤之前测试其上的多种设置。交叉验证结果还告诉用户关于模型结果是否是稳定的,或者如果给定更多或更少的数据,结构是否会改变。图3显示了数据挖掘设计器中的一个交叉验证报表。

交叉验证

  图3:交叉验证

  2.3 企业级功能

  SQL Server预测分析是SQL Server分析服务的一部分,它提供了企业级服务器优点:快速开发、高可用性、出众的性能以及可扩展性、强大的安全性、以及SQL Server管理套件中加强的管理能力。这个企业级功能意味着数据挖掘技术使得预测分析可以随着商业的发展而发展,并为任何规模的公司提供了一个高性能、可扩展的解决方案。

  2.4 丰富和创新的算法

  不同的公司具有不同的目标,并且需要作出不同的决策。因此,任何数据挖掘技术必须支持一组广泛的功能和算法来满足各种不同的商业需求。SQL Server 2008分析服务包括了数据挖掘技术,它支持许多丰富而创新的算法,它们中的大多数都是由Microsoft 研究所设计的,用来解决常见商业问题。此外,SQL Server分析服务的数据挖掘技术是可扩展的,使得你可以添加插件算法来满足专门针对特定公司的独特分析需求。表1显示了SQL Server数据挖掘可以执行的一些任务。

任务

 

描述

 

算法

 

Market Basket Analysis

 

发现一起销售的项目,动态生成意见并决定产品怎样放置可以直接地对你的账目底线有帮助。

 

关联

 

决策树

 

Churn Analysis

 

预计可能会考虑取消他们服务的客户以及确认如果留住他们将会得到的收益。

 

决策树

 

线性回归

 

Logistic回归

 

Market Analysis

 

通过将类似的客户一起分组来定义市场分类。使用这些分类来查找可使你获得收益的客户。

 

聚类

 

序列聚类

 

Forecasting

 

预测销售和总量,以此来了解它们的关系,从而预测瓶颈和改进绩效。

 

决策树

 

时间序列

 

Data Exploration

 

在客户间分析利润率,或者比较选择同一产品不同品牌的客户,以此来发现新的机遇。

 

神经网络

 

Unsupervised Learning

 

确定之前所不了解的你公司多个元素间关系来通告你的决策。

 

神经网络

 

Web Site Analysis

 

了解人们是怎样使用你的网站的,并将使用类似的格式分组以提供更好的体验。

 

序列聚类

 

Campaign Analysis

 

通过使目标指向最有可能对产品提高作出回应的客户,从而使得市场投入更加有效。

 

决策树

 

Naïve Bayes

 

聚类

 

Information Quality

 

鉴别和处理数据录入和数据加载过程中的异常情况以改进信息的质量。

 

线性回归

 

Logistic回归

 

Text Analysis

 

分析反馈以找到关系到你的客户或雇员的通用模式和趋势,使用非结构化的输入提供决策。

 

文本挖掘

 

  表1:数据挖掘任务

0
相关文章