【IT168 评论】“从2005年开始的未来15年时间里,社会需求将从交易业务逐渐转向分析业务,而列式数据库正是在分析系统领域(OLAP)里最好的技术,列式数据库必将更加受人重视。”Sybase(中国)有限公司技术总监卢东明在接受IT168采访时充满自信的说道。
如果搁在几年前,有人问什么是列式数据库?可能不少人会很茫然。从1994年到2005年的十年时间,列式数据库几乎无人问津,而现在随着众多厂商加入到列式数据库的研发,且全球2000强公司越来越关注该领域,如今的列式数据库已经走出了阴霾,用户正在逐渐认可列式数据库,列式数据库的发展已成为必然的,。
从行到列的变化看起来微不足道,实际上意义深远。硅谷最优秀的技术大师之一、影响深远的商业书《跨越鸿沟》(Crossing the Chasm)一书的作者Moore认为,Sybase已经将经典的数据库行式架构模式“完全”改变为列式架构,提取数据的速度比传统数据库快100倍,而且支持与多人实时共享。“这是一种全新的模式,由此可以创造无限的市场机遇。”Moore特别强调了该产品的特点,“了解列式数据库对分析的含义。” 早在2001年,Geoffrey Moore就评价说:它们是最根本、最前沿的技术。
谈到列式数据库就不得不说列式数据库的鼻祖 Sybase,为此,IT168特别邀请到了Sybase (中国)有限公司技术总监卢东明,就列式数据库的昨天今天和明天进行探讨。
IT168:这次离我上次采访您已有1年的时间,在这1年中,Sybase发生了很多重大的变化,如,被SAP并购。Sybase被并购后公司发展战略是否有了变化?
卢东明:目前Sybase还是以独立子公司运营,在以后的时间里,Sybase会在移动商务、商务智能等领域会和Sap做整合,整合之后力图使Sybase列式数据库产生更多的应用,扩展Sybase产品的发展空间。
IT168:卢总曾经是我们ITPUB社区的版主,“卢山缘”这个ID相信不少Puber都有印象,卢总现在还会经常上ITPUB社区吗?
卢东明:现在我还经常上ITPUB社区,不过不用“卢山缘”这个ID了,我用另外一个号在ITPUB里发表一些看法,解决一些疑问。毕竟这样更能了解网友的一些更真实的想法。
IT168:今天我们的主题是列式数据库的昨天、今天和明天。请卢总给我们讲讲什么是列式数据库?列式数据库的原理是什么?与传统行式数据库相比又有哪些不同?
卢东明:行式数据库,数据按行来存储,虽然添加数据、查询数据较为方便,但现在的数据库应用有时需要做某些列的分析,行式数据库在查找这些列的信息时,由于其存取数据的特性,故其不能只读某列的信息,而需要把所有列的信息全部读取出来。这就使得查询效率大幅下降。虽然行式数据库也想到了索引 聚合表,但又带来了空间的暴涨。建立和维护索引也会浪费大量的资源和时间。
列式数据库,所有数据按列存放,例如把所有id放在一起,所有姓名放在一起。即查询时只会在需要的列上做IO,这就比行式数据库效率节省90%,此外,由于数据按列式存储,每列不论是数据类型还是特征都相似,这样数据库更容易对数据进行编码压缩,因此列式数据库在每列上还有非常专利的压缩算法。这是行式数据库无法实现的。
IT168:列式数据库的昨天,也就是历史是什么样的?通过搜索引擎,我们发现列式数据仓库其实是由Sybase于1994年创新、并在1996年发布的,您能否给大家介绍下这方面的情况及列式数据库诞生的故事吗?
卢东明:1994年10月 Sybase 收购了Expressway Technologies,这公司只是做提高SYbase数据库报表查询方面的技术,其中使用的技术便是一种按列存储的技术。这公司被购买后 更名为SYBASE IQ Accelerator,我们可以看到列式数据库最前身是做报表加速器的应用。
1994年11月,我们作为sybase的SQL SERVER10(SYBASE ASE 的前身) 的选项。(雏形)
1996年12月 正式把这个(选项)推出为一个产品,SYBASE iq 11.1,定位于大型数据库库集市市场。
1999年 Sybase iq 12.0 成为一个独立的产品来销售,意味着sybase iq 和sybase ASE 分离了。
2000年 12.4.2 multiplex成为isybase iq的基本功能。
2004年 12.5版本 ,支持BLOB这种大数据库类型。
2005年 一月 12.6版本支持了CLOB,WEB services,XML ,同时推出了图形化查询计划,索引建议等工具。
2006年7月,12.7 正式推出,增加OLAP函数,优化了子查询的性能,使得整个数据库的分析查询能力大幅提高。此外提高了数据加载速度,并将ASE和IQ两个主流的数据库产品整个界面上做了统一。
2009年3月 IQ15 提供了全新的并发查询架构,适应了多核技术;同时通过信息生命周期管理提高了海量数据的管理效率。同时加强了数据监控、管理、分析等图形工具。
去年和今年又推出了15.1和15.2,又增加了数据库内分析,基于列式数据库的内容管理,使IQ跨入了非结构化数据的领域。
IT168:列式数据库从96年发布到现在,已经过去了14年,在今天,列式数据库和当年相比出现了那些变化?有多少家厂商进入到这块Sybase曾经独享的领域?Sybase又如何保住自己的优势地位呢?能否给我们举一个成功的案例和完整的解决方案吗?
卢东明:从94年到05年十年时间,列式数据库几乎无人问津,而现在因为列式数据库在分析业务(OLAP)领域的突出能力,很多厂商加入了列式数据库的研发上来。在这两三年当中,除了列式数据库的鼻祖 Sybase以外,美国有几家公司正在列式数据库方面做研发,中国也有厂商投入其中。这表明了列式数据库的发展是必然的,是一个趋势,大家正在逐渐认可列式数据库。未来列式数据库很可能是一个爆发式发展。
IT168:说完了列式数据库的今天,我们再谈谈明天,您能否给我们展望下列式数据库的未来?
卢东明:从05年开始的未来15年时间里,社会需求将从交易业务逐渐转向分析业务,而列式数据库正是在分析系统领域(OLAP分析领域)里最好的技术,IQ列式数据库必将更加受人重视。而最新推出的Sybase IQ 15.3版本中,将加入共享磁盘的MPP技术,使整个列式数据库体系架构更加灵活和富有弹性。研发人员数量的增加也将给列式数据库带来更多的产品及应用。
IT168:有网友提到列式数据库是好东西,但Sybase的学习资源不丰富,测试软件的下载也没像Oracle那样的开放下载,您能否给解答下这个问题。
卢东明:我给网友三点建议,首先,可以下载一些Sybase IQ的试用版本感受一下,据我所知,ITPUB论坛上可以找到IQ最新版本;第二,我认为可以加强对Sybase IQ的培训力度;最后,如果有关于Sybase IQ的问题,可以到ITPUB社区来提问,我也会尽力解答。
IT168:目前,传统关系型数据库技术也在不断发展,如列式存储,对XML的支持等?这是否代表着一种趋势?
卢东明:行式数据库现在提的“列式压缩”和我们的技术有很大区别,由于行式数据库从根本上还是按行存储,“列式压缩”并没有摆脱行式数据库在分析型应用中的弊病。当数据提高到TB级时,行式数据库就显得捉襟见肘了,而列式数据库则可以满足由于数据规模的增长而不断满足的需求。
