【IT168 技术文档】Darwin被认为是主要的数据挖掘工具之一。这与它的名声相称。最近,Oracle从Thinking Machine公司获得了Darwln以增强它的产品提供的功能—哨别是在数据挖掘起关键作用的CRM方面,如以前讨论的那样。以下的讨论基于由Thinking Machines公司开发和推出的Darwin特征(伽cle可以决定改变此工具中的任何一个特征、组成部分和结构)。
Darwin数据挖掘工具集被设计作为一个包含三个数据挖掘工具的复杂产品:神经元网决策树和K近邻。Darwin神经元网络工具(DarwinNet)为建模提供了一套综合性的功能它能处理类别的和连续的预测器和目标变量并能被用来处理分类、预测和预报问题。
决策树工具(DarwinTme)使用CART算法能被用来解决使用类别的和连续变量的分类问
K近邻工具(DarwinMatch)能被用来解决使用绝对依赖变量的分类问题以及用来处理类阿D连续的预测器变量。
虽然每个组成工具都有一些缺陷,但Darwin提供了一整套对模型进行评估的功能。它勺所有种类的模型产生扼要的统计、无秩序矩阵和提升表。
Darwin为初学者和有经验的人提供了相对较强的用户界面。虽然那个界面看起来更适严一个有经验的用户。
由于Darwin产生于一个作为世界上最早制造大规模并行计算机之一的公司,所以它在里效率和可伸缩性方面有很强的优势。它的算法用于为并行计算进行优化,并足够灵活能泞行和序列结构上运行。这种能力显然没有逃过Oracle的注意。Darwin定位在能帮助Oracle)b面向大型跨国企业提供数据库和应用产品的主要厂商。
Darwlo被设计为一个客户用匠务器系统。它的服务器平台包括单处理机、对称多处理机、厅Wnnd0ws NT的仍则大规模并行处理机以及Sun Mcrosystem、HP、IBM、NCR和mpaq/Di由助的基于UNIX的产品。
数据访问、操纵和预处理:Darwin能从二进制文件和通过ODBC从关系数据库中导定长和分隔数据。在内部,数据是以一种在多处理系统中能被有效安排的特殊形式存Darwin的数据操纵能力包括以下这些方面:
●对分散数据集的合并功能。
●从数据集中删除变量。
●定义变量类型(如类别的、排序的)。
●把序列数据集转变为并行数据集。
●数据取样和分割。
数据挖掘技术、算法和应用程序:当前,系统支持的主要算法是神经元网络、决策树、K近邻。
神经元网络训练算法包括反向传播、最陡下降、修改的Newton和几种其它的算法。转函数包括S形、超切线和线性。
决策树是使用CART算法。这种算法通过选择在分析时考虑的子树的数量能自动修剪
K近邻算法是建立在基于记忆的推理(1L佃R)技术之上。它能根据训练记录中K个最近配记录的响应预测依赖变量值。邻居间的远近是由最小化变量间的加权欧几里德距离决定Darwin神经元网络能被用来构造预测和预报模型,并能处理类别和连续变量。决策树、K近邻工具能被用来处理分类问题。
使用工具:Darwin提供了一个丰富的选项以指定模型。例如,对神经元网络,Dalwln许具体说明网络结构、拓扑、转变函数、训练算法、代价函数、学习模式和Vl陈递归的最数目。这些选项是针对有经验的用户。
因为神经元网络固有地难以解释,所以Darwin提供了对模型结构、拓扑、算法和函数
决策树组件用于把模型描述成一系列简单的能被用户检查的假设规则。
Darwin为模型评估提供了一套完整的功能,包括错误统计报告、分类错误列表、预测际结果的比较报告、无秩序矩阵和一个提升表。
结论:Darwin的优点是支持多种算法(有增加遗传算法和模糊逻辑的计灿。在客户/8反目配置下,它能在几个平台上运行。它的服务器平台包括单处理机、对称多处理机和大规行处理机。在多处理机服务器的情况下,Darwin能利用硬件的可伸缩性特征。在公布目户基准中,Darwln显示了强大的性能和可婢缩性。总的来说,Darwin是定位在适合于规模和大规模实现中。