用于2007 Office 系统的数据挖掘插件提供了以下好处:
· 全面:提供了广泛的工具来满足多种需求
用于Office 2007系统的数据挖掘插件旨在提供一组丰富和可靠的数据挖掘工具。这些工具在桌面电脑上的实用性使得所有用户都可以探究数据并发现隐藏的趋势、以及产品、客户、市场、雇员和其它因素间的关系;使得他们可以满足需求、了解行为和发现隐藏的可以改进商业过程和直接影响收益的机遇。
· 直接:给所有用户提供具有行动力的洞察力
在熟悉的Microsoft Office 环境中访问预测分析帮助用户轻松地将预测合并到日常处理中。在用于Office Excel 2007的表分析工具中提供的自动化任务在下面三个简单步骤中快速地提供了清晰和具有行动力的洞察:
1. 定义你的数据。鉴别对于通知解决方案来说是必要的数据,并在一个定义了要分析的数据的Office Excel 2007电子数据表里创建一个表。
2. 辨别任务。选择合适的数据挖掘任务执行于从数据挖掘或表分析中得到的数据。
3. 获得结果。检查直接从Office Excel 2007环境中清晰和直接的显示所得到的任务输出。
用于Office Excel 2007的数据挖掘插件所提供的自动化任务包括:
o Analyze Key Influencers – 找出影响一个确定结果的关键因素。生成一个根据重要性来罗列关键因素的详细报表,使得用户可以根据每组不同的值比较关键因素。
o Detect Categories – 帮助用户基于通用属性鉴别和分割数据。会生成一个详细的报表,其描述发现的分类,使得将分类重新以有意义的名称贴标签用于进一步的分析。
o Fill From Example – 帮助用户自动根据表的格式将一个只有部分数据的字段填写完全。会生成一个解释所发现格式的报表,使得用户可以重新分析数据并根据获得的更多知识精练格式。
o Forecast – 使得用户可以基于数据集中的值预测未来的值。预测值被添加到初始表和图表中显示过去的情况,并会生成连续的预测发展。
o Highlight Exceptions – 使用户可以发现包含超出预计范围值的数据集。包含异常的记录行会被强调,而会引起异常的字段会被着重突出。
o 场景分析:What If – 使得用户可以获得对一个数据集中一个值的潜在改变对其它值所带来影响的洞察。
o 场景分析:Goal Seeking – 使得用户可以更好地了解需要改变的根本因素,以在一个特定目标字段中实现一个预期值(对What-If工具的补充)。
o Prediction Calculator – 与Analyze Key Influencers任务有关,Prediction Calculator 生成一个交互表格用于存储新的案例。每个属性的影响会被翻译为一组分数。应用于一个新情况的属性结合总结,会预测未来可能的行为。
o Shopping Basket Analysis – 使得用户可以发现经常一起购买的项目间的关系。一个解释了这些关系的报表可以使得更好地了解对财政意义,提供了对打包提供或改良产品布置的洞察。
很容易理解,这些工具的图表输出使得用户很容易在探索中获得发现,并使得用户具有丰富的预测和能够清晰地转变为建议和行动的洞察。
· 协作:在整个公司中共享洞察
在Office Excel 2007中可以执行预测分析,使得用户可以使用2007 Office 系统强大的发布工具在整个公司中共享发现和通知商业决策。举例来说,用户可以通过Office Visio 2007图表中的交互图形化显示来共享分析,或者他们可以通过Microsoft Office SharePoint® Server 2007来共享数据表、报表和图表。
2.2 全面的开发环境
2007 Office 对于信息工作者来说是一个理想的桌面工具,但是对于要在整个企业中部署解决方案的商业智能开发人员来说,SQL Server 商业智能开发套件是非常好的的选择,因为它具有一个基于项目的环境,并与调试和源控制完全集成,你可以用它来创建端对端的商业智能解决方案。
当然,要在公司内渗入数据挖掘功能,只有当开发人员可以建立快速并轻松地满足商业需求的数据挖掘解决方案时。SQL Server商业智能开发套件提供了一个全面的开发环境,它是基于Microsoft Visual Studio®开发系统的。有了商业智能开发套件,开发人员就可以创建数据挖掘结构,它辨别表和字段是否包含在分析中了,并添加多个将数据挖掘算法应用到这些表中的数据上的数据挖掘模型。在商业智能开发套件中的分析服务项目模板,如图2所示,包含了一个直接的用于创建和查看数据挖掘模型的数据挖掘设计器,并提供了交叉验证、提升图、以及利润图来可视化地比较和对照模型的质量,并在部署之前统计错误数和准确性。
图2:在商业智能开发套件中的数据挖掘设计器
SQL Server 2008在SQL Server 2005已经很全面的开发环境基础上,推出了一些改进之处,包括:
· 更有效地将数据分割为训练和测试分区。分区在创建数据挖掘模型的过程中可用。开发人员可以将一部分训练数据集标识为可随意选择用于测试。
· 对过滤的数据建立模型。数据过滤使得可以创建在挖掘结构中使用数据子集的挖掘模型。过滤提供了设计挖掘结构和数据源的灵活性,因为开发人员可以创建一个单独的挖掘结构,基于一个全面的数据源视图,然后应用过滤器只使用一部分数据用于训练和测试大量的模型,而不是为每一个子集建立一个不同的结构和相关的模型。例如,一个开发人员可以对Customers表和相关表定义数据源视图,建立一个单独的挖掘结构,它包含所有必需的字段,然后创建一个过滤了某个特定客户属性(例如Region)的模型。这个开发人员然后就可以轻松地拷贝这个模型,并更改过滤条件以生成一个基于不同region的新模型。通过对数据模型应用过滤器,你可以:
o 为离散值创建各自的模型。例如,一个衣服存储可以使用客户统计来根据性别建立各自的模型,即使销售数据是从用于所有客户的单一数据源获得的。
o 用模型做试验——创建、然后测试相同数据的多个分组,例如年龄20-30与年龄20-40与年龄20-25相比较。
o 对嵌套的数据表内容指定复杂的过滤器,例如要求只有当客户购买了两个或两个以上的某特定项目后才在模型中包括进这个情况.