★飓风起于青萍之末:谈信息的处理
【IT168分析评论】
【聆听IT专家讲座,了解如何降低数据管理成本,更有机会获得限量蓝牙耳机!】
【了解更多数据管理产品信息。】
IBM发布的IBMDB2 9目前已经开始在一些大型企业应用中发挥威力了。给予这款最新的主流数据库产品以全面客观的评价,就现在而言为时尚早,还需要等产品在实践中用表现来说话。然而对于这款产品的意义,业内仍然在议论和分析当中,这是不同寻常的。议论的焦点集中在DB2 9最大的新特性——XML直接支持。在DB2 9的发布会上,IBM 院士郑妙勤说,以DB29 这样大的技术跨度,重新命名为DB3 决不夸张。然而在DB2 9的差不多一打新功能点列表中,大部分不过是一般性的技术改进,配得上郑院士如此高度评价的,唯有XML直接支持这一点。人们的问题是,这样一个新功能究竟有多大的意义?到底是一个商业炒作的噱头,还是一般性的技术进步,还是,如某些专家所说,划时代的技术变革?如果是后者,为什么其他的数据库厂商似乎并没有努力采取同样的步骤?
要回答这些问题,我们不得不从信息的本质说起。
信息是能够为智能体接收、处理并且做出反映的物质。信息有着各种各样的表象,可能是图像、文字,也可以是声音、电波,不同的表象可能表达相同的本质。比如路口的红色交通灯亮起,这样一幅图像与中文“红灯亮了”、英文“the red light is on”以及路口用于提示盲人的特殊声讯表达了相同的意思。所谓“相同的意思”,就是说这些信息表象传达给智能体后,能使智能体做出相同的判断,换言之,其信息本质相同。这种本质,我们称之为“语义”。
计算机出现的早期主要用于数值计算。直到1960 年代,IBM在为其众多大型客户服务的过程中,特别是在参与阿波罗登月计划的过程中,发现计算机的更广阔的应用空间在于信息管理,于是率先向信息管理领域发起冲锋。
当时的应用是将数据与程序牢牢捆绑在一起,单独看数据本身,读者不会知道数据背后的语义。而IBM最初研发数据库的主要意图,就是要解除数据管理与程序之间的耦合,将数据管理任务独立出来。为此必须解决两个问题,一是如何描述信息实体自身,二是如何描述信息实体之间的关系。大约在1967年,IBM对这两个问题交出了一个相当完美的答卷,那就是IMS数据库。这种数据库采用层次型结构,以一种直观的方式模拟了客观世界的实体关系,一种类似指针的机制,将节点与节点之间关联起来,代表信息实体的节点又有着灵活的描述机制,整个信息结构无论是在宏观还是在微观上,都相当灵活。IMS取得了卓越的成就,直到现在仍然被广泛使用。
随后发生的事情,是计算机科学历史上的经典传说。1969 年,在IBM研发中心工作的英国数学家E. F.Codd发现,仅仅使用单一的数据结构——关系表就可以完成复杂的数据管理任务,而且其背后有优美而坚实的数学模型作为支撑,从而以一种规范化的方式开发DBMS 系统,并且以规范化的方式管理数据。1970 年代,关系型数据库不但得到初步实现和验证,而且意义深远的SQL 语言被开发出来。SQL虽然是直接脱胎于关系模型的数据查询语言,但却具有超越关系模型、成为通用数据查询语言的潜力。从1980年代开始,关系型数据开始在市场上取得优势,到1990年代呈关系数据库一统天下之势。今天,虽然主流的关系数据库产品都已经在关系模型的基础上作了大量的增强,比如加入了对面向对象模型的支持,但是本质上,关系模型却是我们这个时代信息管理的主要基石。
在所有的场合,我们都把这一个数据库发展的历史称为伟大的进步,这当然是伟大的进步,但事情亦有另外一面。在二十多年的实践应用中,关系模型暴露出一些问题。关系模型背后有着严格的数学模型,这一方面是它的优点,另一方面,这也就要求在对数据进行关系型建模的过程中必须遵循严格的规范。面对问题域,如何建立有效的关系数据模型,这是在实践中是一个非常棘手的问题,学界甚至为此开发出一整套方法和工具。而这一切,仅仅是为了对静态领域进行描述。不但如此,一旦关系模型被建立和实施起来,再进行模式上的修改将会相当痛苦,特别是在数据库已经运行一段时间,其中包含有大量数据的情况下,修改数据库模式有时是不可行的,或者非常危险。当然,在1980年代,PC刚刚问世,网络尚未普及,企业信息化应用处于原始阶段,所解决的问题大多位于浅层次,加之当时企业经营竞争较为平缓,主要业务模型往往几年甚至几十年保持稳定。因此,尽管数据建模的难度和时间消耗大,但是总体来说还可以承受。这是关系数据库取得压倒性成功的历史背景。
然而这一切到今天已经发生了巨大的变化。首先,信息化已经深入到各行各业的核心业务领域。这些核心领域往往具有高度的专业性和复杂度,不要说置身度外的IT 人员,就是该行业自身的从业者也很难获得全面的认识和准确的把握。这进一步加大了建立关系型模型的难度。其次,商业竞争的加剧使得所有企业都在拼命地变化,即使能够把握领域知识,业务模型也会很快变化。这时候,关系模型一看二慢三通过的慢三拍,以及其严格的约束法则,对于修改变化的不友好,就成为拖累整个应用、甚至企业业务创新的短板。更深层次的矛盾在于,随着Internet 的发展,整个计算环境已经发生了根本的变化,广泛的分布式模型正在彻底取代集中的主机模型,信息分布在各个不同的计算节点上,必须整合在一起发挥最大的效用。根本上讲,关系模型没有给分布式数据提供一个优良的整合模型。
因此,面对一个以互联网为基础的深度信息化时代,关系数据模型已经暴露出几大缺陷:设计负荷沉重、灵活性不足、修改困难、不便于分布数据的整合。人类要向信息文明迈进,就必须在关系数据模型的基础上克服这些缺陷。
而在DB2 9版本中,我们看到了IBM在这个领域上迈出的坚实一步。对XML的直接支持,表面上看不过是很自然的一小步,但这一小步却为信息管理开拓了一个面向未来的方向。XML作为一个结构化的数据描述格式,具有灵活可扩展的特色。通过各种标准的支持,XML能够以一种直接和高度灵活的方式描述数据。更重要的是,通过XML Schema的支持,被XML 所描述的数据不再是静态的死的数据,而是转变为动态的、自描述的、可验证的、信息完备的活的数据。由于可以在后期根据需要随意修改,在前期也就可以直观地设计,设计负荷大大降低。此外,目前一系列基于XML标准的、带有更强语义特性的标准已经制定,例如RDF、RDF Schema和OWL,这些标准具有强大的语义描述能力,为未来的信息管理提供了强有力的支持,能够有效地克服目前困扰企业信息管理的主要障碍。
然而,添加XML直接支持并非一件容易的事情。将两种数据模型放在一个产品里,是否会造成“精神分裂”的局面? DB2 9 真正的卓越之处,恰恰在于将两种数据模型几乎是无缝地整合到一个产品中,并且能够采用同一的界面管理。这一点昭示了IBM 对于信息管理的整体观点:使用统一的界面管理异质的、分布的数据。从这个意义上讲,DB2 9已经走出了坚实的第一步。
飓风起于青萍之末,真正伟大的变革,在最初阶段看上去往往像是一个自然而然的演化。我们相信,DB2 9正是这样一个将信息文明导向新阶段的演化。
0
相关文章