【IT168专稿】毫无疑问,大数据已经站在了数据存储的风口浪尖。根据IDC预测,到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB。
云计算和数据分析是天造地设的一对。云的模型允许用户可以通过网络使用服务提供商的基础设施,但在云端处理大量数据的同时,还需要强大的数据分析软件才能使其发挥完全的威力。可问题是,服务器上充满了各种各样的数据,如何处理那些非结构化数据?对企业来说,如何能快速制定数据分析和优化决策?
近年来,列式数据库因为其远远优于行式数据库的数据分析处理能力逐渐得到用户的认可,而这就不得不说列式数据库的先驱 Sybase。8月末, Sybase公司全球分析产品管理部总监Joydeep特从美国加州总部来到中国,就其新产品Sybase IQ 15.3在云计算领域的功能和特性与记者进行了分享。
▲Sybase公司全球分析产品管理部总监Joydeep
BI领域的专项利刃 :列式数据库
Joydeep说,目前应该是专项数据库的时代。传统的ASE用来解决OLTP事务性的数据的应用是非常适合的,而Sybase有一个小型的数据库SQL Anywhere,可以用来解决嵌入式的应用,它的应用场景非常广,但是可以解决移动或者是比较小型的应用。而Sybase IQ专门用于分析领域的应用。
根据Joydeep的介绍,行式数据局及列式数据主要存在以下三方面的差别。
技术差别:传统的行式数据库的设计初衷就是为了解决行式数据的实时操作或者是并发操作。但是现在的数据仓库往往是基于列,需要涉及很多很多行。在这样的应用场景里面,行式数据库非常不好用。它没有办法像列式数据库那样,只在几列上非常高效的把数据分析完成。所以这是这两类技术之间的一个很大的差别。
数据处理方式差别:在行式数据库中的行分布,行式运算是重复地进行。但是对列式数据库来说,通常是对数据的加工和操作只有一两次,而大量操作是查询。所以涉及的整个数据量以及对数据处理的方式是非常不同的。
测试指标的不同:行式数据库强调的是吞吐量,主要讲的是并发用户同时访问数据的效果。但在分析领域里,往往强调的是一个延时,即到底能够多快地把一个分析的结果送到用户面前。这两个强调的重点是不一样的,因此业界会有不同的测试指标,比如TPC/C用来测试行式数据库做业务的效率,而TPC/H是用来测试数据仓库或者是分析效率的指标。
Joydeep举例说,如果打羽毛球的时候用一个网球拍子,是不能打好的。所以这就是为什么要用不同的、专用的数据库来解决不同类型的问题。
Joydeep告诉记者,Sybase宣传专项数据库专项用的理念已经有将近15年了。以前,很多大厂商对其充满争议。但是今天,Oracle专门为数据仓库设计而推出了Exadata。微软专门为数据仓库环境收购了AsterData,又推出了并行 Parallel Server第二版。IBM收购了Netezza,在数据库OLTP里面还用DB2等等。这些都证明了,不同的数据库,用于不同的应用场景的理念是非常正确的。
数据仓库的扩展性
数据仓库扩展的局限性一直被认为是企业级数据仓库解决方案中最具有挑战性的难题,而Sybase IQ架构中的扩展精髓就是异构,Joydeep介绍道。首先现在的处理器都是多核的,每个核都有多个线程,将多个物理服务器的多核都包含在一个点上,在任意服务器节点上都可以并行查询,这就是传统的垂直扩展(Scale up)。当然也可以通过横向增加节点进行横向扩展(Scale out)。Sybase IQ 15.3对这两方面的扩展性都支持得非常好,并且可以在节点和节点之间互相调配资源。
除此之外,Sybase IQ还可以在内部进行扩展,比如一个16核的服务器,可以将其拆分成更小的单元来做扩展,可以把它变成4个核的四个虚拟机,每一个机器上都安装一个Sybase IQ,当四个CPU工作完毕后,都还原到大的数据库中。这是一种功能上的扩展。
云计算shared-nothing的架构中的调配是根据数据来变化的。调配CPU时,必须要将数据进行分配,才能够让某些查询到这个计算单元上来,当企业面对数据量规律增长,而使用数据仓库比较频繁需要大量计算资源时,传统的shared-nothing架构是没有办法解决的。而这个问题在Sybase IQ 15.3中可以很好的得到解决。私有云和弹性计算也随着可动态创建以支持不同工作负载的逻辑服务器概念而被引入。
云时代的列式数据库
“企业数据量的大量提升,确实为列式数据库的发展提供了一个非常好的环境。一位国际知名的分析师预言,数据仓库应当是以列式的方式来运行。前几年IDC的报告就显示,五年之内大多数的数据仓库将用列式的技术。这一点也铺垫了列式数据库快速增长的前提。” Joydeep说道。
云计算可以解决资源共享、弹性调配、高效调用、灵活自服务等。Joydeep认为Sybase在云的集中形态里处理最好的便是私有云。很多企业现在已经都接受了基于Sybase IQ 15.3的云的列式数据库的架构。因为在企业架构领域的时候,可以通过各种各样的图、资源相互动态地调整,避免像传统的架构那样,所有资源固定分配,不能够动态地调整。
对于社区云来说,更多的是云服务。Sybase 365是Sybase主攻短信互联的一个子公司,用户用IQ来分析短信互联上的数据,以优化一些网络链路和计费,这就是基于Sybase IQ的云服务。
Joydeep非常看好混合云, 并且表示,Sybase IQ有非常好的技术来支撑这些云服务厂商。对于公有云,Sybase虽然现在还没有能够发布消息,但是也是其关注的重点。
Sybase IQ :列式数据库的先驱
提到与其他列式数据厂商的比较,Joydeep认为有两个重要的方面。首先是产品的成熟度。Sybase IQ从诞生到现在已经15年了, 每一年新增加的用户,比某些竞争友商到现在为止所有的客户数都要多。因此,市场的接受程度,以及经历考验的程度是完全不一样的。
从技术方面来说,产品的复杂度也不同,Sybase IQ有很多对查询的优化是非常复杂、先进的,其他列式数据库厂商,可能在查询的优化特别是处理一些大数据量的并发用户的场景下,还没有经历非常严峻的考验。
还有某些厂商,基本上强调的是开源软件,并且比较便宜,主要供应比较小型的应用场景,Joydeep认为和IQ这么多年在企业级耕耘的市场地位没有太多可比性。
另外,就企业级应用方式来讲,列式数据库对SQL语言支持程度是非常不一样的。Sybase IQ完全基于ANSI SQL标准,并且严格遵照这些标准来实施,所以从用户的使用角度来说,优势非常明显。
总 结
据Joydeep介绍,在Sybase IQ 15.3的Beta版时,已经有美国的客户开始试用。对于中国的用户,Joydeep同样充满了信心,目前已经和国内的三大行业——电信、金融和零售业建立了合作伙伴关系。 随着Sybase IQ 15.3的发布,BI领域又掀起了新高潮,Sybase将再次通过开发和扩展革新的数据库技术让中国的企业全面感受到智慧的高级分析。