技术开发 频道

专访:云时代的BI新利器Sybase IQ 15.3

  【IT168专稿】毫无疑问,大数据已经站在了数据存储的风口浪尖。根据IDC预测,到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB。

  云计算和数据分析是天造地设的一对。云的模型允许用户可以通过网络使用服务提供商的基础设施,但在云端处理大量数据的同时,还需要强大的数据分析软件才能使其发挥完全的威力。可问题是,服务器上充满了各种各样的数据,如何处理那些非结构化数据?对企业来说,如何能快速制定数据分析和优化决策?

  近年来,列式数据库因为其远远优于行式数据库的数据分析处理能力逐渐得到用户的认可,而这就不得不说列式数据库的先驱 Sybase。8月末, Sybase公司全球分析产品管理部总监Joydeep特从美国加州总部来到中国,就其新产品Sybase IQ 15.3在云计算领域的功能和特性与记者进行了分享。


▲Sybase公司全球分析产品管理部总监Joydeep

  BI领域的专项利刃 :列式数据库

  Joydeep说,目前应该是专项数据库的时代。传统的ASE用来解决OLTP事务性的数据的应用是非常适合的,而Sybase有一个小型的数据库SQL Anywhere,可以用来解决嵌入式的应用,它的应用场景非常广,但是可以解决移动或者是比较小型的应用。而Sybase IQ专门用于分析领域的应用。

  根据Joydeep的介绍,行式数据局及列式数据主要存在以下三方面的差别。

  技术差别:传统的行式数据库的设计初衷就是为了解决行式数据的实时操作或者是并发操作。但是现在的数据仓库往往是基于列,需要涉及很多很多行。在这样的应用场景里面,行式数据库非常不好用。它没有办法像列式数据库那样,只在几列上非常高效的把数据分析完成。所以这是这两类技术之间的一个很大的差别。

  数据处理方式差别:在行式数据库中的行分布,行式运算是重复地进行。但是对列式数据库来说,通常是对数据的加工和操作只有一两次,而大量操作是查询。所以涉及的整个数据量以及对数据处理的方式是非常不同的。

  测试指标的不同:行式数据库强调的是吞吐量,主要讲的是并发用户同时访问数据的效果。但在分析领域里,往往强调的是一个延时,即到底能够多快地把一个分析的结果送到用户面前。这两个强调的重点是不一样的,因此业界会有不同的测试指标,比如TPC/C用来测试行式数据库做业务的效率,而TPC/H是用来测试数据仓库或者是分析效率的指标。

  Joydeep举例说,如果打羽毛球的时候用一个网球拍子,是不能打好的。所以这就是为什么要用不同的、专用的数据库来解决不同类型的问题。

  Joydeep告诉记者,Sybase宣传专项数据库专项用的理念已经有将近15年了。以前,很多大厂商对其充满争议。但是今天,Oracle专门为数据仓库设计而推出了Exadata。微软专门为数据仓库环境收购了AsterData,又推出了并行 Parallel Server第二版。IBM收购了Netezza,在数据库OLTP里面还用DB2等等。这些都证明了,不同的数据库,用于不同的应用场景的理念是非常正确的。

  数据仓库的扩展性

  数据仓库扩展的局限性一直被认为是企业级数据仓库解决方案中最具有挑战性的难题,而Sybase IQ架构中的扩展精髓就是异构,Joydeep介绍道。首先现在的处理器都是多核的,每个核都有多个线程,将多个物理服务器的多核都包含在一个点上,在任意服务器节点上都可以并行查询,这就是传统的垂直扩展(Scale up)。当然也可以通过横向增加节点进行横向扩展(Scale out)。Sybase IQ 15.3对这两方面的扩展性都支持得非常好,并且可以在节点和节点之间互相调配资源。

  除此之外,Sybase IQ还可以在内部进行扩展,比如一个16核的服务器,可以将其拆分成更小的单元来做扩展,可以把它变成4个核的四个虚拟机,每一个机器上都安装一个Sybase IQ,当四个CPU工作完毕后,都还原到大的数据库中。这是一种功能上的扩展。

  云计算shared-nothing的架构中的调配是根据数据来变化的。调配CPU时,必须要将数据进行分配,才能够让某些查询到这个计算单元上来,当企业面对数据量规律增长,而使用数据仓库比较频繁需要大量计算资源时,传统的shared-nothing架构是没有办法解决的。而这个问题在Sybase IQ 15.3中可以很好的得到解决。私有云和弹性计算也随着可动态创建以支持不同工作负载的逻辑服务器概念而被引入。

0
相关文章