技术开发 频道

专访赵伟:南大通用打造云+NewSQL新模式

  【IT168 专稿】在云计算时代,传统关系型数据库暴露出很多不足。这类数据库不易扩展、缺乏并行性、很难部署在有大量节点的SN集群上,对海量数据处理不利限制了其发展。基于云时代的需求市场,大量公有云数据库和私有云数据库往往是以NoSQL为基础的,例如基于Hadoop架构的HBase、Google的Bigtable等。NoSQL本身的非线性、分布式、水平可扩展等特点,非常适合云计算海量数据运算。

  然而,Hadoop在面对传统关系型数据复杂的多表关联分析、强一致性要求、易用性等方面,与分布式关系型数据库还存在较大的差距,NoSQL目前提供的应用也趋于简单化。于是出现了一种基于云架构的新型数据库——NewSQL,在传统数据库基础上支持SN集群,提高了系统伸缩性。例如EMC的Greenplum、南大通用的GBase 8a MPP Cluster、HP的Vertica都属于此类产品。近日,IT168记者采访了南大通用数据技术有限公司副总裁赵伟先生,分享了南大通用在应对行业大数据的过程中所做的创新和实践。

专访赵伟:南大通用打造云+NewSQL新模式
▲南大通用数据技术有限公司副总裁赵伟先生

  NewSQL是数据库的未来

  在大数据的需求推动下,数据库行业展开新一轮的创新。以Oracle为代表的行业垄断受到了强烈挑战,全世界至少有30家新兴的数据库企业和大约50款新产品进入市场竞争。南大通用作为国产数据库的领军企业,针对大数据的市场环境推出创新理念和产品——NewSQL和GBase 8a。

  数据处理架构的变革理论源于Stonebraker教授的论文。其在论文中认为行业的技术大思路应该由“一种架构支持所有应用”转变成“多种架构支持多类应用”。在云计算海量大数据的市场趋动下,已经验证了这点。南大通用将其理论做了进一步延伸和细化,将目前数据库行业分为三大阵营即:OldSQL、NewSQL和NoSQL。其中OldSQL,即传统的数据库厂商: 例如Oracle的 Exadata等;NoSQL,基于Hadoop架构的HBase、Google的Bigtable、Cassandra等;NewSQL,EMC Greenplum、南大通用的GBase 8a、HP Vertica属于这个产品的代表。

NewSQL是数据库的未来
▲数据库行业的三大阵营

  赵伟表示,数据库行业的未来是NewSQL,并将成为主流的数据库产品类别,具有极高的商业价值。在三大产品阵容中,NewSQL在保持了关系模型的基础上,对存储结构、计算架构和内存使用等数据库技术的核心要素进行了有深度的改变和创新。NewSQL和NoSQL将打破OldSQL服务于所有应用而一统天下的局面,与OldSQL三分天下形成三类产品各自拥有最适用的应用类型和客户群的局面。同时NoSQL和NewSQL都表现出了面对海量数据时较强的扩展能力。NoSQL另外一方面优势在于对非结构化数据的处理支持上,而NewSQL作为新一代数据库产品,产品对于全数据格式的支持也已经日趋成熟。

  NewSQL相比NoSQL,在实时性、复杂分析、即席查询和开发性等方面表现出独特的优势。具体来说,NewSQL整体优化较好,实时性较强,而NoSQL相比实时性较差;NewSQL采用多种索引和分区技术保证多表关联,效率较高,而NoSQL缺少高效索引和查询优化,复杂分析差;NewSQL采用列存储和智能索引保证了即席查询性能,而NoSQL只能做精确查询不能做关联查询;NewSQL是基于标准的成熟商业软件,对用户的研发能力要求相对较低,而NoSQL属于平台型的模块、没有标准,对用户的研发能力要求较高。

  云架构变革行业大数据

  关于大数据,业界最普遍的认知是其4V特征,即海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。南大通用认为大数据主要分为两种类型:行业大数据和互联网大数据,其中行业大数据又可分为经营类、管理类、监管类和专业类。行业大数据的体量与互联网大数据的体量相当,价值密度高于互联网数据。行业大数据的主要应用是分析类的,应采用新的技术架构。正是大数据引发了数据库行业的在整体架构、核心技术、产品形态方面的重大变革。

  GBase 8a的产品定位就是“行业大数据”,并针对云架构做出创新。据南大通用副总裁赵伟介绍,目前南大通用云架构产品是GBase 8a MPP Cluster,其是在GBase 8a列存储数据库基础上开发的基于现代云计算理念和SN架构的并行数据库集群。为超大规模数据管理提供高性价比的通用计算平台,可广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统。

专访赵伟:南大通用打造云+NewSQL新模式
▲行业大数据与互联网大数据

  GBase 8a MPP Cluster基于现代云架构,与传统数据库相比有五大优势:首先是扩展性,云数据库基于MPP架构,相比传统的小型机+阵列方式,扩展性明显增强。其次是处理数据,云数据库由于拓展性强,可拓展至数十PB,而传统的数据库达到百TB数据量后,性能就已经下降明显。再次是灵活性,云数据库采用列存储+智能索引极大增加分析灵活性,解决了传统数据库分析型场景需要大量优化工作灵活性差的问题。还有维护性,云数据库采用集群架构,单点故障不影响可用性。传统数据一旦出现故障整体将瘫痪。最后是建设成本,云数据库采用基于x86+Linux,相比传统系统的小型机方案成本较低。

  赵伟表示,云架构的数据库主要适用场景有四类,分别是:第一,海量数据查询、统计、分析,比如互联网、金融、电信行业等可提供PB级的数据支撑能力。第二,数据仓库支撑,给ODS、EDW、DW提供百TB支撑能力。第三,ROLAP Cube,提供基于星形、雪花模型的多维分析,TB级别的CUBE实时钻取。第四,即席查询、统计分析,基于任何字段组合的随机查询、统计,支撑百TB级别数据量。

  GBase 8a MPP Cluster云数据库目前已经有大量应用,涉及各个领域。电信行业的应用如运营商集中经分项目、省级详单云化改造项目、大云数据库推广项目。政务行业有国税总局金税三期项目、海关总署风险管控项目、银监会、统计局等项目。另外和中兴、用友、中油瑞飞、东软等企业用户有合作项目,提高了其系统应用性能。

  以某运营商集中经分项目为例,项目平台共使用80台中高端服务器,5台万兆交换机,跨7个机柜,测试平台无论从网络部署、测试业务复杂度还是数据量都堪称国内规模最大的集群环境。测试分为64节点集群测试与80节点集群两个阶段。充分展示了GBase 8a集群MPP和SN架构的优势和强大的综合业务处理能力。在所有数据采取压缩入库的基础上成功测试并通过了所有测试用例,数据加载速度达到2.35TB/H,数据查询效率达到同类产品领先水平,并在64节点和80节点扩展性能上有明显的线性提升。目前,系统已经存储和管理了400TB的数据。

  GBase 8a优势解读与未来展望

  据赵伟介绍,南大通用GBase 8a相比之前的产品有六个重要特点:一是基于MPP+SN的云架构,架构中的每一个节点(node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点竞争,具有非常强的扩展性。二是通过采用独特的扁平架构、高可用性和动态扩展能力,为超大型数据处理提供了一个高性价比的分布式数据库管理平台。三是产品使用通用x86PC服务器和Linux系统,具有很好的横向扩展性,单个集群可达到192个节点。四是作为新型数据库代表,产品采用了独特的列存储、透明自适应压缩、智能索引和内置全文检索等技术。五是可支持TB到PB级结构化和半结构化数据存储查询和关联分析。六是产品有强大的自我优化能力,可大大降低用户的使用难度和成本。

  GBase 8a对比其他产品的优势可以概括为“三高”,即高性能,更显著的查询、加载性能;高性价比,有效减少存储开销,减少客户的运营成本;高可用性,不要求复杂的分区和索引,更好的支持工具软件。

GBase 8a优势解读与未来展望
▲GBase 8a MPP Cluster核心技术

  面对云时代的需求,赵伟认为数据库未来发展将呈现如下趋势:

  1. 对于全数据类型的支持。未来各行各业更大、更复杂、更多样性数据处理需求,为云数据库对全数据类型支持提出了更高要求。

  2. 更大规模MPP和数据管理集群技术。目前现有集群已经可以支持100节点的集群规模,其存储和运算能力已可以满足百TB级行业大数据的应用需求。为了满足PB级以上规模的行业大数据应用需求,需要300-500节点甚至更大规模的数据库集群产品。

  3.大数据一体机产品。为应对客户对MPP数据库易用性、可靠性、运维成本及运算性能等方面的更高要求,国外的主流数据库厂商均推出或准备推出其一体机产品,开发一体机产品也已经成为云数据库的一种发展趋势。

  4.跨平台融合。随着Hadoop等其他云计算平台的普及,很多行业都在其上积累了海量的数据,如何将云数据库和Hadoop等云计算平台无缝融合,对海量关系型数据和非关系型数据进行统一查询,实现深度的数据价值挖掘也是云数据发展的一个趋势。

  小结

  大数据、云的时代已经来临,NewSQL数据库在继承了一些传统成熟的关系数据库基础之上开发能够支持海量数据,高性能,高扩展性满足支撑云计算、大数据和移动互联网应用的必然是在下一代数据产品市场中处于主导地位。

2
相关文章