技术开发 频道

优异数据库专家访谈:IBM DB2 Viper全程实录

  【IT168技术访谈】才子英:各位网友大家好!非常高兴大家来到赛迪网聊天室,今年下半年IBM DB2下一代数据库而Viper将在中国发布,这时一个新的版本被称为是“毒蛇出洞”,它也引起了人们对于数据库技术的发展趋势,新技术的推广和应用等一系列问题的关注,因此,赛迪网邀请到IBM院士王云先生及中科院周龙骥教授做客赛迪网在线聊天室,与广大网友谈谈数据库领域的前沿性话题

   王云:大家好!

   才子英:王云教授您是什么时候进入IBM工作的呢?

   王云:我是80年代初期加入美国硅谷数据库研发中心,等于从80年代一直走过来,看近了数据库的“沧桑”它从早期比较单一的功能支援一些商业型的交易应用,到现在变成几乎事务所不在的从商业应用到社会应用的技术主体。

   才子英:您现在在IBM负责哪些工作呢?

   王云:去年2月份到现在中国IT是成长最快的,所以给了我一个非常好的使命让我支撑IBM在中国的研究和发展实验室,特别是专注于在信息管理领域,技术的提升和IBM全世界其他的实验室互动,以及帮助怎么样把IBM非常先进的技术通过IBM在中国跟客户的管道,以及跟所有的供应商之间,使IBM的技术在最早的时间提供给这些客户。

   子英:我知道您被授予IBM院士的称号?

   王云:IBM大家觉得它是一个美国公司,但它其实是一个全球性的公司。美国的员工并不占它全部员工的50%,它是全球性的企业。技术工作人员确实是遍布全球的,大家都有机会提升到那个程度。

   才子英:周教授是什么时候开始做数据库研究的呢?

   周龙骧:我是76年进入数据库领域的,那时候资料比较少,有一些还比较保密。我是设计和开发第一个层次性的在中国的数据库管理系统。从那时候到现在一直在做,大概设计开发了五个系统。有分布式管理系统有推理式的管理系统。多媒体的数据库管理。
 
   才子英:您在擅长的是在数据库的哪个方面呢?

   周龙骧:开始的时候是做一些数据库的文章,后来研究设计和开发,比如说关于DBMS的实现技术,很荣幸参与了System R。

   才子英:王院士您进入IBM也很久了,能跟我们讲一下当时IBM发展关系型数据库起源的过程吗?

   王云:关系型数据库观念是在加州硅谷是它的发源地。如果讲历史,在70年代的时候IBM本身从客户那边发现了这个需求,即使在70年代的时候我们也发觉软件就是软的。常常发现一个应用开发完了之后客户的需求又变了,所以在一些IT部门工作量太高了,公文累计项目的太多了。我们就想怎么样能够提升?把这个东西模块化?怎么样能够把应用和数据分割开?当应用更改的时候不必所有的数都重新做一遍。基于这样商业模式的需求之下,我们在IBM的研究实验室里有一位CODD博士提出了一个观念,这个观念有一个理论的想法依据,我们平常看到的这些东西是数据。譬如今天我和你出现在这个场合,你是一个数据,你是才子英小姐,我是王云先生,很多东西把我们串在一起我们真实的人生是把很多东西串在一起,这就变成了一个信息。我们之间靠的是关系,数据是零散的,串在一起就变成了信息。周教授也是对知识工程做了很多研究,我们有了这些信息之后怎样把信息的形式组织起来?能把形式组织起来就变成了知识。

   我们每天在现实生活中有很多数据,这些数据到了可用的阶段必须理清。我们中国人讲要归纳,归纳出一个道理来才能再演绎。当时IBM的CODD博士就发觉把这些数据灵活应用创建了这个模型。当时在加州那个地方最早做了两个原型,一个是IBM的实验室做出来的,就是system R,另外一个原型是加州伯克利分校做出来的模型。

   IBM把这些东西变成产品化之后,更有趣的故事是当Oracle成立公司的时候,当时UCBerkey也成立一家公司,加州大学教授出来之后也成立了一家公司名字也叫Berkey。Oracle成立这家公司的时候觉得商业模式是希望跟IBM走,Oracle最早出来的版本就是跟IBM的SQL是一模一样的。因为IBM对整个商业界影响的关系,最后UCBerkey这个公司成立以后把整个语言也变成了SQL。

   IBM不管从最原始观念到做出模型,到最后的商业化甚至整个业界可以接受的标准,甚至我们成了国际性的SQL标准,里面80%里面的标准是IBM提供的。

   讲到观念数据库开始到现在为止IBM在技术层面还是处于领导的地位。

  【IT168技术访谈】才子英:关系型数据库有了原形之后,怎么发展成为IBM的DB2呢?

   王云:计算机里面最重要的两个组件一个是CPU,另外一个最重要的就是信息。作为一个人来说他的聪明才智反应在哪些方面呢?有的人说这个人好聪明你讲什么他都知道,这是他的记忆力好。还有人说这个人好聪明,比如去饭店买东西买单他一下就算出来了,这运算力强。其实IT基础支柱一方面是信息,一方面是运算。因为IT基础架构一个是运算一个是数据。数据提供了非常理想的接近自然的方式代表我们的关系,数据本身是不具有很大的价值的,必须要把关系串起来,最后变成有用的信息。

   最近DB2在主机方面发布了新的产品,代码超过了300万。这二十多年走过的历程从30几万到300万有十倍的成长,被客户、业界能够广泛的拿来做应用,不断延伸的结果。我们当年20年前我们要招聘做数据库的研究或者开发的时候,会问同学你学过这个课程没有?我们现在招聘一个员工就要问他有多少年开发工作的经验?所以数据库从尖端的技术变成了普遍化的过程。

   才子英:你觉得DB2数据库在这个过程中有哪些发展的转折点?

   王云:数据第一代产品是集中式的。后来就是客户与服务,架构变成了数据库和应用是分布式的。就是从应用和数据库集中在一起,经过转化变成了分布式的运算。

   第二步转折,有了分布式之后,最早的关系型数据库是处理商业上的应用。就是谁在什么时候做了一个什么样的商业性的交易?这是数据库最基础的。数据库本身提供了很高的功能,后来把它应用在了其他的方面,所以最早的观念是从应用的角度看复杂的对象?在做性能上的工作的时候,发现有一些东西不能突破,所以回过头能不能从关系型数据库上能不能跟应用做一个好的结合?这就是从信息作为一个出发点,但是可以把面对对象的观念加进去。这是另外一个转折。这个转折的结果让我们关系型数据库本身要变成是开放式的,它通过客户自定义,可以把客户的运算分到数据库中来。让我们的关系型数据库变得更开放了,让外来的数据可以插进去。

   再一个就是怎么面对Internet的挑战,我们目前最大的挑战就是从关系型数据库走过这一代代之后,现在怎么样针对Internet做一个新的出发。 

   才子英:现在很多人认为数据库已经发展到了非常非常成熟的阶段,它是不是没有再发展的方向了呢?这方面从一个研究者的角度,请问周教授和王院士有什么看法?

   周龙骧:数据库和关系型数据库是两个概念,数据库是应用性技术,要应用就是周围的现实世界,现实世界非常复杂、非常丰富多彩。我们认识的条件有限,因此我们认识到只是现实世界的一部分,叫做我们认识的现实世界。对认识的现实世界我们要把一些应用放上去的话就必须再简化才能做得到。因为还是太复杂了,所以模型就是很好的概念,模型是把主要的框架抽出来,次要的忽略掉。这个模型就是能了解这个世界最基本的出发点。

   现实世界中最容易进入我们视野的最直接的模型是什么?就是树型结构,比如学校有系、系里面有教研室,这就是层次型的。像我们国家中华人民共和国、下面有各个省、省下面有市、市下面有县。因此最普通的,最常见的模型就是树型结构。因此数据库开始做的依据模型就是树型结构。

   王云:IMS树型结构是40多年前IBM的产品系列,当时为什么会有这个系列出来呢?当时有一个美国登陆月球的太阳神计划,这个计划里面有很多,从大到小,计划里面有原料、项目的管理等等,怎么管理这么庞大的计划?所以当时觉得用传统的文档不足以支援的,IMS是帮助美国当时把这个太阳神计划做好。

   周龙骧:树型模型做的很好,后来觉得树型结构还不够,树型就是每一个结点“有一个父亲”,但是现实生活中更复杂一些,比如北京市即是在河北省这个地方,又是我们的首都,又和国家分不开。有时候关系是比较复杂的,因此进一步发展网状的结构。这样对象就更多了,网状结构也是发展的相当成熟。有一个科学家CW.Barkman写了一个论真,树形结构和网状结构关系都是用户设计,关系简单的时候还好办,复杂的时候用户顾不了这么多。Barkman的报告写了程序员就是领航员,这样程序员的工作太繁重了,太复杂了。在这样的情况下出了关系模型。只有关系模型是先提出模型然后再去用的,关系模型提出来以后差不多全世界的数据库学者进行了差不多十年的研究,研究的比较透。关系系统从理论上钻研的非常非常透。我们认为数据库系统最怕就是结构的变化,变化以后信息会损失到,或者没有的信息增加了是最害怕的。树形结构和网状结构最头疼的就是修改,在关系模型里这些就研究的非常透了。

   才子英:它是否还能再有跨越性发展了呢?

   周龙骧:不用担心它的查、添、删改,取得这些成果也很困难。像我们知道一个数据模型有三个主要成分,一个是数据结构,一个是在数据结构上的操作,还有一些约束条件。关系模型上面有一些查、添、删改的运算。还有一个就是完整性,一个是组件的完整性,还有一个完整性约束条件就是外界的完整性。比如我在学校里学生的关系里有不的名字,我也可能在图书馆借书,那儿也有我的名字,这两个地方都有我的名字这是两张表。这两张表其实是有关系的。经常会发生这种问题,一个学生毕业走了,学生把自己的名字删掉了,如果这个事情办的不好的话,图书馆的名字还在呢,可能人家以你的名字借的书还没有还。一个好的数据库系统不会发生这样的问题。这个地方学生处的名字删掉了,图书馆那个地方的名字也会删掉。这就是外界的完整性。

   才子英:我们刚才讨论了关系型数据库已经到了很高的层次,已经到了一个瓶颈了?

   周龙骧:不是瓶颈,就是发展的相当成熟了。 

   才子英:不能在技术上很大程度的跨越了?

   周龙骧:跨越不是为跨越而跨越,而是应用的需求。

   才子英:现在有什么样的技术跨越关系型数据库所达到的高峰呢?

   周龙骧:比如有面向对象是过去十几年研究的,现在已经有很成熟的产品了。面向对象的模型就增加了结点到结点之间的关系。
  【IT168技术访谈】才子英:还有别的吗?

   王云:刚刚周教授讲了数据库其实是支援IT应用的系统。如果IT的系统是支援整个社会的变迁,社会的变迁就会反应到数据的需求上。我在家里有时候女儿会问我一些问题,我答不出来的时候会说问你妈妈好了,我开玩笑说妈妈生了你,一定了解你的状况。我在IT这个行业大家常问我,到底IT从数据库本身也好,或从整个信息架构也好将来面临的挑战是什么?需求是什么?我常讲这样一句话“都是WEB惹的祸”。因为现在有了WEB应用,对能量来讲变得不可估了。以前一个银行不管是工行也好,还是建行也好,我知道我的工作量是多少。现在开放网上银行、网上交易、网上买卖,首先根本不知道到底有多少人会跟你发生业务的关系。在容量上突然因为都是WEB所以根本就失控。像我们现在做这个聊天可能有100个人上来,可能有60、70人上来,所以你根本预测不到带宽的挑战。所以这个需求对我们整个IT的挑战都在其中。

   才子英:您的意思说数据库在新的领域要在Internet上有新的需求。

   王云:比如谈到女生的裙子到底是长还是短,好像有些您流行短裙子,然后又流行长裙子,像周教授谈到的70年代的时候有一个层次型的数据库,把数据的模型用树的方式表示。后来有了关系型数据库,回过头讲都是Internet惹的祸,在WEB我们用HTML语言表示,它本身也是树状架构的信息表示格式,它是以文字形式描述的。THML早期的时候是基于人与机器相通的模式。HTML本身不是机器与机器的交流模式。树状结构资讯的格式由于有了Internet,从HTML里产生出了一个新模式就是XML,它是机器之间可以互相交换的东西。

   由于都是Internet,都是WEB所以产生了一种新的数据和传输的模式需要整个IT处理,这个模式就是以XML为主,以文字为主,以树状结构为主的新的信息处理的模式。

   才子英:您提出了用XML处理更新型数据结构的需求。现在IBM在DB2新的版本中也加入了对XML的支持,IBM对XML的支持研究发展到了什么样的状态呢?

   王云:XML不仅仅在数据这个层面,它其实在整个IT架构层面都要处理。今天反过来讲为什么我们的浏览器红起来?它红起来的原因是被全世界都认可的标准。在没有XML以前整个业界怎么做沟通呢?比如在我们的零售界,甚至举一个很简单的例子,XML现在变成整个工业界几乎能够被接受的一个标准做业界之间的信息交换。比如说在所有的银行界、财经界、保险界,甚至媒体有一个NML,它是在媒体界做新闻报道的时候怎么描述新闻的段落来用的。XML就跟HTML一样变成工业界大家可以接受的方式做工业界的信息传播了。XML已经从最上层,业界的使用层到IT层都是必须要处理这样的问题。

   XML如果说放到最低层的话,到了存储方,它所要支援的东西跟关系型数据库以前走过的30年的历史其实是一样的。第一,把XML的信息要能存到数据库中去,你也要能取出来,取出来的时候希望能快速的查询。你必须能够经济有效的把XML这样的东西能够存进去,拿出来,拿的快,就是能够索引。索引出来之后要能查询。

   才子英:您讲的这些现在IBM都能做到吗?

   王云:我们今年7月份产品发布的时候会把这些所有的功能都放在DB2的内部,关系型数据库是可以插进一些新的技术,比如说时间序列的,比如从快递中心送到CCID,我会知道哪里交通最繁忙。数据要处理不同的模式,包括时间和空间。所以第7版本的时候我们有一个XMLExtener,我们是用外插件的方式,它是罩在数据库核心技术的最上层。在效能上、整合性来讲会比较差一点,我们现在把这个技术全部搬到数据库引擎的内部来做,这是我们的第9版本会发布。我们从研发单位开始做这个事情到现在已经有五年的时间了。

   才子英:想问周教授XML现在对数据的传输都很重要,国内是不是也在研究这方面的工作呢?

   周龙骧:国内这方面工作做的很多。XML的出现是因为WEB的出现,它的前身是XGML,简化以后成为XML。现在有了WEB以后因为需要,所以大家都要用它。

   才子英:国内对它的研究是什么状况呢?

   周龙骧:国内还是力求和国际接轨吧。在研究机构、大学里都有研究。除了做一些单课题的某一方面的研究以外也做整个系统的设计、开发研究。比如人民大学栗晓峰的网站也公布了一些这方面的研究成果。像北大、清华、复旦都在做这方面的研究。各方面都有一些进展。最近是博士生毕业的高潮,我看到很多论文都是这方面的。
  【IT168技术访谈】网友:“毒蛇”的创意是从何而来的?

   王云:这点我倒是不晓得。我猜一下好像是说我们在这个版本的前一个名字是“Stinger”是蜜蜂蜇一下的意思,而这一次的版本更加厉害了,所以叫它“Viper”毒蛇。而且他们选名字的时候我们做IT人都有一个“毛病”就是选的名字大家都不熟,越是通俗的不会选,就是会选一些稀奇古怪的。

   网友:王云院士刚才说到,您可以说几十年做数据库当中历尽了“数据库的沧桑”您可以举一两个例子吗?

   王云:就是做出来的东西没人用就算是“沧桑”。如果做出来的东西大家可以接受这是最大喜悦。如果说对一个项目研究不够透彻的话,做的时候可能做之中发现问题的话这是很痛苦的事情。

   才子英:遇到过这样的事情?

   王云:遇到的不多。小时候我们在中国式的家庭成长,我跟一些人也有一些交流,我在国外工作这么多年发现某个方面是中国人好也是中国人的不好,是中国人的优点也是缺点。尤其在国外,我发现我们在国外工作的时候我们的脑和嘴就像月球到地球。在国外常常开会提出一个议题,美国人有很大意见,中国人提出一个意见的时候常会想这个意见对不对?有没有缺点?讲出来有没有人回答?我们还没有讲出来这个议题已经结束了。因为中国人的个性很好面子,所以我们做一件事情老是想负面,某些场合要是一个很动感的情况下有的时候中国传统教育会让我们的思路比较慢。可是做项目的时候反而会深思熟虑。我觉得很多人做项目的时候会有“沧桑”就是开始做的时候没有看清楚,会反复改来改去。

   网友:如果我是Linux用户想做Liux平台上的数据库管理,DBA应该从哪些地方开始学生?

   周龙骧:DBA对我来说不太熟悉。现在大部分数据库系统都是关系型数据库,就是一些表单,单和单之间是有关系的,每个单子上有一列列的属性,哪几个属性放在一张单子上变成一张表,两个表之间什么属性有关系?这些属性效率最高?这些的叫数据库设计。要把数据库设计的非常合理、效率会非常高,这样接到一个任务给哪一个公司做一个项目,你怎么设计它的数据?不说凭自己的直观就能做好的。

   网友:IBM对数据库产业影响这么大,那对Linux与BSD的支持如何?

   王云:IBM的DB2数据库产品和技术可以放在所有的平台上。我们对Linux系统从80年代末期就有版本支持Linux和BSD的平台了。我们刚才谈到7月份会发布DB2 第9版本也是支持Linux的。我们现在有一个版本“社区快速版本”(E-C)它是免费的。IBM有一个数据库它的信息是用Java语言开发的关系型数据库,IBM把Cloudscape这个捐给了开发者社区。

   网友:关系型数据库目前在开发过程和性能是不是有可以改进的地方?

   周龙骧:这个是一定的,国际上优异的到地区的,到亚太的到我们国家的数据库,查询优化是常青树这个问题都可以做。因为已经做了是做不到头,做不到底,优化是肯定的。

   王云:以IBM作为一个例子来讲,IBM在中国1995年先从研究实验室开始,1999年成立了软件开发实验室。现在一路走过来我们的研究实验室在北京大概差不多有200多,不到300个做研究的人员。我们的软件开发在中国地区差不多有将近2500名员工。这团队从1999年到现在6、7年的时间成长很快。这个团队中有做信息管理的差不多有50名,做产品开发的大约有500名。IBM的研发比例大约就是1:10,就是10个人做开发,1个人做研究,1:10在中国也是保持着这样的模式。有关于信息管理来说,在中国我们有差不多将近600名员工在做开发的工作。这个实验室在IBM全球信息管理的一块。全球来讲IBM做信息开发研发人员有将近6000名,中国大概是全球的十分之一。这6000多人都在做继续开发的工作,所以肯定是有很多事情做的,肯定是会提高的。

   网友:非结构化的信息会有哪些变革?

   王云:对信息的需求有几步曲。第一个是有数据,是零散的,怎么把这些零散的数据整合起来?就是信息处理,以前我们处理是强调数字是有规则的。我们做同样的事情是做非数字化、非结构化的处理。XML要低一级我们怎么可以把它拿进来,存进去、取出来?下一步我们要能做分析,然后能做挖掘找出其中的关系。以前我们开发是基于数字为本的,现在要重新做以文字为本,以不定格式为本的,非数字型结构。

   网友:未来会不会出现纯粹的基于WEB的数据库呢?

   王云:WEB是我们发布信息和收集信息的媒介。WEB的信息最后要存的是什么呢?或者要取的是什么?我们通过WEB做一个网上银行,这个网上银行的东西还是以前银行本来作业的流程也好、带宽也好,还是这些东西。WEB是一个媒介,把信息作为一个交换的平台。有些信息会有一些新的需求可是很我信息还是照以前的处理模式和存储的格式留在原来的方向上。
  【IT168技术访谈】才子英:刚才讲了很我DB2最新版的问题,可不可以总体给我们介绍一下最新版的Viper有什么新的特点?

   王云:昨天来的时候我想到了五子登科跟我们Viper的关系?最早的五子登科是一家有五个小孩都考上了进士。现在有一个版本五子是“妻子、房子、车子、儿子、银子”,这是我们人生的目标。五子登科跟Viper有某种关联性。我们做一个项目的时候,Viper第9版本有超过250个项目。我把这250个项目中找到几个重点,第一个就是XML,它等于像家里做妻子的,以前太太在家里,比如处理家事,打点家事,比如做菜做一个中国口味的就行了。但是现在对太太的要求来讲可能不仅要会做中国菜,也要会做外国菜。Viper是处理关系型的数据模型的,现在WEB的产生对数据能存储到Viper,Viper第9版本就可以处理XML的数据和传统的关系型数据。它不仅要能管理,还要能转换。XML是一个树状结构,代表的是更靠近应用的,从应用角度看是整体的树状。这个事情真正在生活中,比如说这个事情可以放在网上,可是我的亲戚朋友和你的亲戚朋友可能又有另外一种关系,其实我们个体之间是有多重的复杂关系的。XML只是把其中一些关系理清楚。

   我们真的处理实际现实生活中的关系的时候,XML是一个方式。可是这种方式要经过转换变成另外一种方式,是从XML的模式变成成一个关系型的模式,这些事情都是DB2 Viper处理的。它是一个可以融合关系型数据库以及XML数据库,可以代表两个操作,可以把两个库之间做转换的的。

   比如五子,钱要很安全,以前数据库的模式都是一张表为单位,真正使用的时候会发现你也把一个信息装进去,我也装进去一个信息,在这个表里有这么多不同的记录,每一个不同的记录是不是单独有它的安全标志?在国外有一个机制叫做安全标签。比如有机密、保密,很多的安全级别。DB2的Viper支持了在一个表里,每一行都可以有一个安全标签。使用人也会有一个安全标签,在安全标签上做一个授权的验证。

   再讲车子,刚开始有车子的时候大家很高兴,有车自己开了,但是最怕车的保养和修车。你希望车能够免保养,能够全自动,自己可以管自己最好。刚才也有网友问到怎么样学习DBA的技术,刚才周教授讲了首先要做好数据库的设计,其实最重要的还是怎么样学好操作的处理。

   回过头讲,在Viper的第9个版本加入了全自动管理。就是管理一个数据库的时候就存储来讲有两方面的管理,一个是存储的管理,一个是运作的时候电脑上有多少内存分给哪些人用?一个是动态的、支援数据运作的,另外一个是静态的,这些真的数据存在哪里?所有这些内存和外存在我们的Viper中做了全自动的处理。它会根据你动态的流量和吞吐量自动的管理这些事情。

   还有“房子”。房子是越大越好,希望能够做合理的分割。我们Viper第9版本,把表的长度可以支援到10个TB,房子大了以后你希望做适当的分割,在Viper的第9版本有三个层次的分割方式。第一个是以无序的分布可以分布到不同的计算机上,可以根据信息资信的某些特定值做物理分区。包括过去三个月的报表,每一个月的报表存在一个地方,或者每个礼拜的报表存在一个地方,做物理存储的时候比如三个月的报表,每个礼拜存一个地方,物理上存了12个地方。逻辑上看全部是在一起的,这三个月做完了,现在一个新的报表要加进去,旧的要拿掉,加和拿是透明的而且是马上可以发生的。

   另外,在存储之下还有做另外一种分割的方式,我们“房子”希望越大越好,可是合理分割才会发挥最好的功能。

   刚刚谈到了现在是数据爆炸的年代,过去十年来我们发现信息的数量增加了将近100倍,可是我们读取数据的速度增加还不到10倍,表示我们有太多的数据拿不出来。怎么办?我们Viper有一个技术就是可以做资料压缩,当你存进去的时候把它压缩了,所以拿出来的时候可以很快。就是可以把量的数据做大量的缩减。

   才子英:横向的比较呢?其他公司数据库的产品它的优势在哪里?

   王云:数据库领域IBM从发展史来看,甚至说对整个贡献来看,数据库在全世界的标准化、制度化IBM是最大的贡献者。就国内的四大行来讲几乎都是用IBM的数据库做管理。

   如果看全世界100家最大的公司,其中96家都是用IBM的数据库管理。

   才子英:中国还有那么那么多的中小企业存在,如果大的企业非常适合用IBM的数据库,因为IBM有很好的服务,很全套的产品,但是如果付不起这个钱,IBM会提供这样的服务给中小企业么吗?

   王云:IBM针对小型企业我们是开放我们的数据库免费使用。让你用数据库的时候不需要耗费过多的成本。
  【IT168技术访谈】才子英:我知道周教授在多媒体数据库和分布式数据库方面有很好的造诣,能给我们讲一下这两方面的发展吗?
 
   周龙骧:我做分布式数据库的时候是纯的分布式数据库,在网上每一个结点都是从头建立起来的,这是比较理想化的,或者有些大的项目时候可可以从头做的。但是现在有一些已经存在了,把它集成起来,就是要发展新的技术。新的技术和老的技术一样的就是集成,集成就会碰到很多问题。一个就是很多数据库已经存在了,模式会有一些差别。集成这方面的工作也做了很多年了,可是从产品来说要做的好还是有工作可以做的。

   多媒体牵扯到的问题,已经有了那些公司他们对多媒体的处理工业扩充一个数据类型,来自关系的,有整数、实数,扩充一个多媒体的类型比如图形、图像、声音、动画、电视、音乐都可以。就像Informix的刀片。

   才子英:通过这方式加进对多媒体的支持。在数据挖掘这方面的?现在数据量越来越大,如何从这些数据中挖掘有用的信息?

   周龙骧:挖掘方面全世界一窝蜂都在做这个研究,也有很多进展。可是在应用上应用的非常好的还不是太多。在应用上可能还需要花更多的力气。据我所知国内上海宝钢做的不错。他们是自己研究的,我们在写数据挖掘的时候就强调了应用,所以我们找例子的时候不大容易,因为资料很少。这方面在应用研究开发的基础上要进一步努力,这样才能得到企业界的认可。的确是有用的,有效的。

   才子英:刚才有一个网友问到IBM会不会进入移动或者嵌入式的数据库的研究?

   王云:我们已经在里面了。DB2是一个家族产品,在家族产品中有一个是Java开源的数据库产品。在手持设备上我们有一个DB2 EVERYPLACE它就是嵌入式、移动式的数据库产品,移动设备本身是你大部分时间可以不联通联通的时候所有的数据可以存放到主机大型机后台的机器上。能够做信息的同步。我们国内比如说SAP的移动设备技术就是用我们的DB2 Everyplace,我们现在跟国内很多厂商也在谈,是不是能把Everyplace嵌入到其中。

   现在很多车子,我们也想将来车子是不是能够自己驾驶,驾驶第一步就是要有一个导航系统,就是把地图的信息存进去可以做导航。就是做DB2的嵌入式技术嵌入到汽车的导航系统中这样的项目我们也在谈。

   周龙骧:WEB是已经存在的,是无穷无尽的。我们可以做一些专题的虚拟数据库,比如说像“白血病”如果我们做一个UEB上的虚拟数据库在上面可以有很多目录,然后不必真正的把数据搬过来。

   才子英:是基于搜索的?

   周龙骧:比搜索更集中。

   王云:IBM有一个产品叫信息集成器,就是做数据虚拟集成。

   才子英:现在中国的企业对非常前沿的数据库技术接受的还不是太好?

   周龙骧:我对企业还是不太了解,我觉得有些企业需求很迫切的,他们对这方面要求的还是比较多的。比如银行,我所知道的香港银行需求就非常迫切。谈到保险这些都会做的比较好。一般的企业,因为中小企业这方面的需求就看公司做的怎么样了。他们都是很实惠的,如果引入了数据库对他有帮助,他还是很乐意的。如果投了很多钱没什么大进展,他也不欢迎。这方面还是有相当的工程要做。

   才子英:现在国内对数据库的研发您的跟国外相比有什么特色?

   周龙骧:国内整个工业发展水平跟国际有相当大的差距。这几年也前进了不少,比如当时我们做数据库的时候是很落后的,我们的硬件就是用磁带,那时候做数据库很困难的。我们国家也希望在企业通用的大型数据库方面能有自己的一席之地。在十五中国家专门投入的巨资开发国产通用的数据库系统。我参加了系统的验收,可以说现在有四家用了他们的产品都可以用了,就是从稳定性、效率、安全性方面都可用了这是一个比较大的进步。但是跟国际上一些大的公司品牌还是不能比的,但是自身来说还是有很大的进步的。从研究工作来说跟国际接轨方面也有很多进步,现在各个大学和研究机构他们研究课题是国际上比较热点的课题。这方面取得的成果,开创性的工作这种进步还不大能看到。跟国外的交流比较多了,这方面可以看到发展的前景还是比较好的。

   才子英:和厂商的合作呢?

   周龙骧:很少。厂商要用数据库一般都是找大公司,因为他们也追求保险。有些企业我问为什么不用国产数据库?他是用国内的数据库出了事我有责任,用进口的数据库我没有责任,所以就用最好的。

   才子英:我们设想一下虚拟的,未来数据库应用在我们的生活上会是怎样的情景?

   王云:我觉得我自己在30年前没有想到在数据库中做了30年,我们现在想我们做的就是信息管理。信息管理从现在往前看和往过去看都是一样的,由于IT的成功我们会有一些传统的应用还继续往前走。银行业务、股票市场,有太多的传统的应用还在往前走。往前走它的需求就是我们要把所有的东西能够做的更快、更便宜、更好,这是对信息处理的需求。

   由于我们把信息的技术用在超越了以前传统的商业行为,又跟生活息息相关的行为上的时候,会产生一个要求就是做新的技术的提升。比如多媒体,它现在用在远程教育上利用WEB就可以上课。当这些应用变得越来越广泛的时候,它会从数字信息变成非数字信息这就跟文化接轨越来越强。以前早期计算以数字为模式,这是全世界可以接受的模型,是1+1=2大家多可以公认。当我们将来这个IT技术,包括Informix跟人类接触更广泛的时候,需要更多人文的介入,甚至很多技术发展会跟人有密切的接触。对于中国来讲下一代数据库很多东西只有在中国在于发展,在世界其他角落不能发生,是因为这些信息本身是跟我们的社会、人文接触非常密切的。

   将来信息包括数据的延伸在中国会有非常火的发展,就是因为将来真信息不再只是管理数据,而是与人息息相关的知识。

   周龙骧:SQL语言一般人是不用的,以后的发展肯定是这样的趋势,如果用起来,第一是简单,还要自然另外还要效率高。因此可以想象还是要用自然源,这样数据应用才能更加广泛。一般人不会意识到有数据库的支持。就像我们用电一样不会意识到有发电厂的支持。

   才子英:今天非常感谢两位做客赛迪网给网友讲解了这么多的知识,今天的聊天到此结束,谢谢二位,也谢谢各位网友的参与!
0
相关文章