技术开发 频道

SQL卷土重来 成就炙手可热的大数据

  【IT168 专稿】看似NoSQL数据库在过去几年中迎来了发展的春天,而传统数据库却缺乏施展空间。其实情况正好相反,“结构化查询语言(SQL)“实际已经在原本看似难以发挥的领域占据了统治地位,这就是“大数据”。

  近日在美国召开的Hadoop峰会上,众多新产品与合作都围绕“大数据”分析这一核心展开。其中最令人惊讶的在于,一项已经存在数十年的技术伴随着海量数据处理方案再次出现在人们面前。此次峰会上的大多数企业都以SQL为基础的新技术作为大数据分析的主要接口。

  “看起来没有哪家Hadoop相关方案供应商能够在改进SQL之外拿出新型产品,”曾任Concurrent公司数据科学负责人、现任Mesosphere公司首席科学家的Paco Nathan在Hadoop峰会的演讲中指出。“其中一些方案甚至出色到让人质疑。”

大数据炙手可热的新技术其实早已存在

  以Hadoop为基础

  Hadoop是一款开源批量处理存储及分析引擎,以谷歌发布的MapReduce及谷歌文件系统技术研究论文为基础。它充当着众多“大数据”分析工具的底层技术,旨在对由Web访问、服务器日志及其它各类数据流所产生的海量数据进行筛选。举例来说,Facebook在其Hadoop集群中保存着超过30PB的数据,并为Hadoop创建了Hive查询前端(目前已经成为Apache开源项目)。美国国家安全局利用Accumulo数据库进行情报数据的实时分析工作,这套数据库同样以Hadoop为基础。

  不过技术人员在学习Hadoop系统时遇上了诸多挑战,这是因为该机制要求用户充分理解问题解决策略(也就是MapReduce)并掌握支持MapReduce所必需的编程语言。MapReduce利用批量并行处理工作对规模化数据进行分类,而SQL则成为绝大多数关系型数据库及技术人员高效发掘并分析数据的利器。尽管Facebook所创建的Hive能为Hadoop提供一套类似于SQL的前端,但它仍然无法完全重现SQL语义或者达到与SQL等同的执行速度——这是因为它只是将查询转译成可为Hadoop接纳的批量处理式MapReduce工作。

  在过去六个月中,供应商们已经根据市场需求推出了一系列具备完整SQL查询功能且性能表现显著优于现有Hive/Hadoop系统的系统方案,从而满足企业用户降低使用门槛的呼吁。这些新系统允许用户对全局数据集进行完整的SQL查询,而且在大多数情况下能够完全绕过Hadoop(尽管某些产品仍属于混合型方案)。规模化高速SQL查询的实现终于令大数据分析成为大部分企业员工能够掌握并适合现有工作流程的实用性解决方案。

  下面我们就具体看看SQL大数据方案中的主要代表:

  · Facebook的Presto:这套实时查询引擎能够为Facebook的Hadoop数据存储提供直接SQL接口。Facebook计划于今年秋季将Presto以开源项目的形式推出。

  · Amazon Web Services的RedSift:该服务提供一套基于SQL的数据存储服务,能够处理数据规模在1.6PB以内的全部数据库查询。

  · HortonWorks的Stinger:旨在改进Hive的SQL接口,并将Hive的速度提升上百倍。

  · IBM的BigSQL:这是一套专为Hadoop开发的SQL查询引擎。BigSQL回避了MapReduce,通过与Hadoop分布式文件系统对接以处理只读查询及HBase(即Hadoop数据库引擎)事务查询对数据的读写操作。

  · EMC的HAWQ:这套SQL查询引擎专门用于该公司的Pivotal HD版本Hadoop。

  · Cloudera的Impala:这是一套去年十月刚刚发布的Hadoop专用实时查询接口。

  Hadoop本身也将迎来一系列变更,从而使Hadoop数据的SQL查询流程更为便捷。将于今年年底推出的Hadoop 2.0利用名为YARN的模块化架构替代原本的MapReduce代码,允许多种分析系统与MapReduce共存于系统当中。

  原文链接:The hot new technology in Big Data is decades old: SQL

0
相关文章