
IBM 中国 刘晶炜
刘晶炜: 各位行业的专家,IT行业的精英,早上好!
非常荣幸IT168给了这样一个平台,这是中国行业社区里面逐渐成熟的一个重要的时刻,我在这里更多不是从厂商的角度去介绍一个产品,一个功能,我觉得在参加这个大会,我刚才想过了,我觉得更重要的是分享对行业发展的理解,以及我们对于发展方向,以及各种技术演进思想的冲突,能够给大家带来一些有益的建议也好,反思也好,我这里面谈到的信息管理SOA,SOA的概念在中国已经是好多年了,但是有一点大家可能会注意到,在信息管理领域里面,SOA里面谈到的并不多。我们想到SOA的时候更多想到是在应用层面,那么在这个过程中,从数据和SOA关系的时候,更重要的切入点在哪里,为什么今天有这么多的企业去考虑,去接受SOA的概念,它意味着什么呢?这是非常值得我们思考的问题。
从我个人的理解来看,SOA倡导的是一种开放的社会,是一个协作的社会,不是一个封闭的,把你各种的功能能够更好的,不同的系统之间能够很好的协作过来,现在做的程序也好,数据也好,强调的是重用的概念,强调的是一个以模块化组合的概念,这些概念过来在前几年,更多的我们从流程的角度去做这方面的思考,现在来说SOA包括(英文),大家也越来越多的认识到,如果没有数据层面的参与,要实现SOA这个概念和理想存在一定的复杂性和障碍,在信息管理里面如何去扮演SOA,我今天要谈的是从两个角度去谈,一个是对核心数据库基础技术的影响。
第二是对信息组织架构的影响,在SOA环境里面任何系统之间它们交换的,不管是流程也好,交换的其实是在于信息的传递,数据的交换所有的技术框架和标准最主流用什么样的来表示数据呢?大家会用(英文) 来表示数据,它仅仅是一种标准吗?那么这些问题实际上涉及到一个核心的问题,核心的问题就是说数据的复杂性,数据的灵活性,数据的可理解性,这三个重要的问题上面我们有新的模式,这种模式就是从一个简单的我们只是去考虑一种格式,以及在信息管理上面让我们大家去思考,在信息管理这个体系里面,我们已经非常成熟,甚至是大家可能已经认为缺省的一些东西,过去我们对信息,尤其对结构化信息的缺省认识就是关系到整个理论体系,这样一种方式上面让我们去思考,是不是信息只能以这样的方式来组织,这样一个理论基础的奠定是在三四十年前,奠定起来的(英文)的标准,以及(英文)的标准体系,和今天IT现状,以及业界整个潮流是不是还能够完全的适应,这些问题就是更深层次的问题,这里面涉及到我们今天的IT任何系统的基础架构,已经不再像几十年前一样。
它是一个核心,所有业务逻辑的实现要依靠于IT,业务本身是在不断的变化,有很多的业务模块,今天我们会看到在数据层面我们变得越来越复杂,数据层面已经超脱于单个系统,在这些层面上面的考虑,我们对信息的认识跟过去当时关系型产生的时代,我认为有一个重要的不同,这个重要的不同是什么呢?数据库诞生之处,数据在整个IT系统扮演什么角色?它不能为了数据而设计的,而是为了实现一个系统的功能,自然为了实现它去生成了这个数据库,有一个地方能够支持你的业务,但是在整个设计理论和思想上面,从来没有以数据为中心来构造系统,在IT里面,多个相互之间的协作和应用,这个时候使得我们不得不在整个组织行业上面要去考虑,今天去考虑,明天也必然面临,数据库里面一直没有产生大的冲突性的点,就是说数据的模型,它最核心的组织方式,在过去20多年的时间里面,在我们从一进学校受到的教育里面,整个的模型体系里面都是(英文)模型,你在数据领域里面如何去认识世界,你是用一个二维的模型去描述再复杂的数据,在这样一种情况下,在相当长的时间里,关系型的数据奠定之后带动了它的发展,走向了非常成熟的一个高峰,但是随着外部环境的变化,信息化的发展数据复杂性的变化,SOA概念的提出,大家协作的变化,这里面两个重要的缺陷,已经被大家越来越多认识到了。
第一,关系型模型是一个平面化的东西,它对任何事物的描述是一个固定的,这是第一点。第二点,关系型模型里面对于数据的理解和数据是没有联系的,你要一张表,表和表之间的关系你必须要有一个元素,数据本身是不能说明它自己的,关系型模型里面,它对于多样性的事件,他认为所有的东西都是相同的,每张表里面的东西都是一样的,在固有的体系里面是没有的,那么这些的变化如何适应信息的复杂性,灵活性,这些在理论层面上已经产生了冲突,这样一种冲突在过去各个厂商想到了很多的办法去解决,想到了很多在外围的方式去解决,但是都不是从根本上解决的途径,而(英文)技术的出现,一开始只是在外围,只是在数据交换,这它的发展,大家已经认识到它不仅仅是一个模式,代表了如何认识数据这样一个非常核心的问题,这样一个问题导致过来,就是我们信息究竟应该怎么组合,组合的方式是不是有更多的方式,这种方式是带来一种层次性的建模问题,它可以有多样化的实体对象,每个对象和每个对象的结构不一定完全一样,能够允许你在未来的允许过程当中不断的去扩张,不断的去演变,灵活性去提供,通过一个很简单的模型大家可以看到,我们看起来,这两个任何一种理论体系都可以去描述现有的事情,这是没有问题的,那么对于变化的产生呢?我现在描述的一个部门和一个员工,所有人在关系型模型里面所有的属性都是一样的,没有差异性,关系型的体系里面,这里面每个员工的属性,员工和部门之间的关系它是固定的,当我发生变化的时候,我们常采用的方式,如果当你的一对一和一对多这个关系型里面这个重要的准则出现变化,你这套体现就没有办法完成,你就必须要用泛式化的规范把它拆成两张表,用不同的体系来进行描述,它对多样性的适应性,它对多个不同对象里面的差异处理方向,很轻易的加进去了,模型本身带来的变化是最核心的,这就带来我们在技术上面存在创新的功能。
IBM在这个技术的投入大概在五年前开始,我们是结合了我们七个大的实验室,认为信息数据库的技术迟早会产生重大的变化,过去的理论体系已经非常成熟了,已经几十年的历程了,我们在去年推出了(英文)是第一次的在这个里面一个重要的推出,我认为这个只是在整个数据库产业转型的刚刚开始,这一系列新的技术标准,新的方式才刚刚产生,这里面在我们做到一个尝试是什么呢?在数据库的里面不是纯粹只有关系型这一种东西,有层次性的模型体现,还有关系型的主流模式,关系型原来沿用的大家很熟悉的操作方式,(英文),但是新的国际标准(英文)如何用层次的方式,以及层次是代表了我们数据层面上如何用对象的方式操作模式,(英文)在我们这个平台里面相互适用,用层次的方式可以访问很多的层次,(英文)实现一种混合的模式,提供一种更大的灵活性,这种灵活性的体现,我们在这个技术上面最重要的两点,我认为是组织模式的变化,组织模式的变化,其实(英文)的技术标准对于数据库而言并不陌生,在各种数据库几年前,都曾经有对(英文)的支持,包括其他的数据库,过去的模式是怎么样的呢?概括而言,是一种模拟的方式,用关系型的二维表结构去模拟一个层次型的竖性结构,模拟的时候把其中的一些属性抽出来,第二种就是把一颗复杂的树完全肢解,变成一张一张的表,数据库由一张表和表之间的融合,关系型里面固定性的障碍并没有被解除,你对象的理解并不能很好的去理解,我们在这个层次上面最重要的问题是我按照竖性结构本身的存储方式设计一套存储体系,以及操作模式,尤其是在操作模式这个方面是国际性的标准,存储体系、思维体系,都不一样。对书数据的组织,不再是一行一行大家在一起,而是一棵树在最底层的方式,访问它的模式就是用IXPUB的方式,我不需要定义太多复杂的结构,放进来任何数据信息都可以查询,缩影机制,比关系行的缩影机制来得更灵活,比如说竖型结构里面多种层次,这些体系完全可以在这个里面来产生。
下面我们举一下在国内推出之后已经在一些领域里面产生应用,在医疗领域,我们看到这是我们实际的做法,电子病例实际上是很复杂的结构,我们有多少种医疗的监测设备,我们用关系行的方式去建模,大家会怎么去建模?如果你要把所有这些东西都放进去,放进去不是把它当成一个文件放进去,我们是不是都要把所有的东西都理解清楚,这种模式意味着我们关系性的结构会不会很复杂,这种复杂性不仅仅代表多,如果把表结构给各位你们觉得有意义吗?你们能够理解这些信息吗?这就是在于关系型里面对对象的理解,这种模式里面如果我们用层次型的模式去解决,对象的差异性,以及这些方式都可以很好的去被管理,应用所能够施展的空间要大很多,比如说刚才我们讲到这样一个复杂的医疗的对象,这样的对象可以作为一个整体存到数据库里面,对任何一个部件的查询,也可以通过方式去优化,做到效率的提升,这样带来在建模以及在复杂数据管理上面,很多在设计上面可以考虑新的模式,第二块就是说在过去的体系里面,关系型数据库有这样一种理论结构,有一个复杂什么是结构化数据,什么是非结构化数据,一本书究竟是一个结构化数数据,还是非结构化数据,任何一个对象抽象到一定高度的时候,都可以把它比作一个结构化,任何一个对象细化到每一个肢解的时候都可能不成为一个结构化的体系,比如说一本书三百页的一个书,这本书里面你要去做一个搜索,我要查数学公式在不在这个书里面,我无法告诉你它在哪一章,哪一节,除非你弄一个结构化的建模,如果是用层次化的体系,任何一本书都可以用层次化建模,当我传进去是一个数学公式,有相应的标准,我能够用(英文)的方式去描述它,可以准确的定位到这个公式出现在哪一章,哪一节,准确的返回它的IXPUB,你要从任何一个节点为中心去辨认这本书的时候也有很大的灵活性,由于模型本身的变化使得很多固有的观念产生了调整和转变。
我们过去很多在关系型体系里面多样化的模式,这是在美国纽约的一个应用,这里面有两种差异性,不同类型的表格会有很多的差异,这里面属性,很多的设计人员,你可以把它抽象出来,很多的模式就是一张表格,这是你的数据来源,一张表格对应几个表格来去做,这个层次上面就使得你在表结构上面会有很多很多张表,我们当时在美国这个系统里面是几千种表格,这是对于数据的理解和组织这个层面上的差异性没有办法管理,第二,当我们在设计一个表格的时候,是不是每一个属性都是填表的人都必须要填的呢?数据库的方式多样性的处理采用一种简单的方法,这是在现实的关系型的数据库里面,我们经常会看到很多的表,因为张表不同的阶段需要记录的字段是不一样的,你需要这么多的字段,如果层次型的模型去建模的话是不是跟刚才一样呢?哪个更清晰,哪个更被容易理解呢?这是给大家带来第二个思考,第二个,我们的(英文)语言很清楚,在整个数据操作的过程当中是不存在对象的概念,子对象的概念没有,这里面我们要去形成一个完整的业务层面对象的时候,我们需要对很多报表实现关联,关联拿出来是一个平面的结果,如果用层次型建模,至少带来一种对象化的操作模式,这个对象和那个对象合并的时候,我想相关联的节点,从它的上面去进行管理就可以形成,我要把每个对象肢解构造的时候,我不需要了解细节,我不需要去了解你的某一个细节的内容。这上面细节可能有很多的差异性,我要组合成一个新的业务对象的时候,这样我构建起来,在数据库的体系里面就使得可以通过视图来构建,可以支持多种方式,多种组合,这样一种需求当用户用到层次性去理解数据的时候,他以这种方式去看书的时候,和我们要让他学习几十张表这种关联关系哪个更容易呢?这个也是我们值得去在设计的时候思考的。 下面任何一个业务对象大家很多会讲到层次型,我们今天要形成任何一个业务对象,举一个最简单的例子,电信业的,今天没有任何的电信公司、移动公司会把他的详单查询做在(英文)上面,为什么?量太大,这种关联关系,每个节都要去找,关系型数据库的模式,很大层面上涉及到排序,数据库里面最底层的数据组织不是按照对象的组织,内在的关系他是不理解的。使得我们在数据库里面很多的优化设计在这上面去做考虑,包括数据库里面,包括IBM的技术,都是怎么样力图让有关系的数据,包括很多的(英文)技术,很多都是在关系型的体系上面思考一个根本性的问题,怎么样数据在磁盘上的存储就接近它的访问方式,大家访问的方式如果本身内部的关系就能够固定的话,就会变成一种很复杂的大的(英文),这里面也会有很多突破性的应用空间,这些都是值得人们去探讨和应用的。
还有一个领域是我去年10月份参加美国的一个大会,我深有体会,包括硅谷一系列的风险投资资助的一些起来的新技术公司,他们给出来的解决方案,非常让我们产生一个未来的一个方向的深思,数据仓库理论大家都知道很多年了,我们对数据分析都很熟悉,我给大家讲一个概念,就是今天当数据是(英文),以后国家的政府机构,比如说我们已经在有的(英文)的国际标准,(英文)、(英文)要求所有的上市公司把它的财务,以及相关的报告用体系报上来,银监会,各个国家的部委,当他要去搜集这个社会信息的时候,他会要制定技术标准,这个就是他的数据来源,你可以很简单的做法,就是把它完全肢解,变成关系型的结构,我们要做分析的时候很简单,你需要构建简单的模型,这里大家认识一个,不光是一个繁琐性,在这个过程中有没有什么信息丢失掉?如果本来XML里面非常容易理解的数据,进到关系型数据库,再形成分析结构,再由业务人员提出需求分析的时候,这个过程中有没有什么隐性的东西被忽略掉,关系型数据库很简单,大家会想到层次型结构,业务人员可能能够看得见,到了关系型数据他看不见,这是第一点。第二点,你在业务规范里面,当我们去做一个多维分析的时候,围度是一个最基本的元素,围度是什么,围度在(英文)里面有没有体现?它有什么样的值,什么样的分类,它本身和数据的连接已经很清晰、很自然,当你在做肢解的过程当中,它就脱离了,现在我看到在国外一个新的应用,就是叫做(英文)模式里面,如果数据本身的存储方式能够以XML直接存储的话,它的存储方式是统一的,我直接通过(英文)了解信息,因为在数据标准的定义里面,以及它们之间的相关关系,业务人员他直接拿过来构造虚拟的也好,什么也好,变成了有一种新的途径,这方面我在去年下半年的时候第一次看到业界有这样的产品出现。 这个领域里面谈到了数据库的变化,数据库是在IT技术里面比较底层的,90年代开始一个很重要的浪潮,包括Java,这里面背后,在应用体系里面广泛产生设计对象的思路,建模的思想,已经在广泛的应用里面产生,大家从很粗的概念现在变成主流,这个我们对数据的理解是不匹配的,我们是没有对象的概念,但是在应用的体系,这就使得我们在正常的业务处理当中产生这两个体系之间的转换,你基本上类似在做这种事情。用对象的方式和XML体系去建模的话,一定程度把这两者有机联系在一起。那么我们会看到和未来应用是往这个方向去走的,数据库的发展也要按照这个体系去走。 数据库的产生解决了一个重要的问题,应用的逻辑和数据的操作方式分开,随着之后关系型数据库这么多年提升的是什么?性能、可靠性、安全性等等这方面的提升,XML只是迈出的第一步,这里面讲到SOA的整个框架里面,数据库最基础的理论,IT架构,这个架构的影响我们会看到信息,今天在业务系统里面,我们基本上所有的系统,数据库是最不可建的,被用户的界面,现在的问题不再是一个信息生产的问题,而是信息的再利用,这是业界普遍的挑战,如何把已经有的数据用好,这个用好不仅仅是简单的一个数据库,很多业务操作的过程当中也需要了解不同这个信息,现在SOA架构里面互相协作模式里面不是完全的匹配,流程要的数据的时候,不一定这个数据是来自于每一个系统,客户信息,他们的一致性都是普遍存在的问题,现在业界里面一个新的词汇就叫做主数据本身,主数据,这些数据在过去的设计里面和IT架构里面是分布在不同的业务体系里面,现在一些新的发展方向和趋势是什么样的呢?逐渐的把它剥离出来,现在的IT里面,在大型的企业已经产生为了管理一个业务信息本身,就是为了管理信息,而直接的和业务的网络应用直接挂钩,这种体系只是形成对于信息的管理,信息的组织,以及这些信息可能的服务方式来组成一个主数据的管理,这样使得信息的应用得益于原来的应用,在SOA的层面上带来一个信息服务体的概念,在国外已经走过了三四年的历程了,包括像花期银行,还有一些很多优异的国外的一些企业,花了非常大的资金在这个领域里面做改造。
面向客户的体系,重新构建它的IT架构,这种过程基本上是沿着这种模式。SOA的第一阶段是把现有业务系统的功能,把它挂到一个大家能够用通用的标准,能够互相协作的方式,这种服务是什么,第二个层次的问题,再深入,没有数据的核心,再深层次的,包括一些业务系统的模式,各个业务系统会用的数据,以及其他方面的信息,单独构建成系统,这个系统它本身没有具体的业务功能,它只是提供数据的准确服务,这个不是以分析为应用,逐渐去弱化原来业务系统里面对这些共享系统的管理,这个趋势在中国已经产生了,你看到工商银行,建设银行,包括一些大的银行,工商银行、建设银行已经开始启动了,其他银行已经正在转型,包括一些保险公司,在他新的系统设计之初就用这种模式来建模。 我们在SOA整个理论框架的体系上面,数据信息的管理,越来越多的按照这个体系在产生变革,这里面就会产生很多很多的技术,配套的就会有如何去整合现在业务的信息。这些主数据的信息,企业整个信息资源,它组织的模式是怎么样的,它的数据模型变成了各个重要的厂商关注的要点,数据模型里面针对不同的体系应该设计什么样模型的框架。针对信息提供什么样的服务方式,以及对整个企业信息的管控,整个体系的变化,很多信息的产品不光IBM,在很多厂商里面都在产生,这里面我觉得非常有信心的认为在07年,或者以后的几年,数据库领域的变化逐渐会影响到业界。希望我今天的内容能够对大家有一定的启发,谢谢各位!