【IT168 专稿】拥有MongoDB的大数据创业公司10gen日前宣布升级Hadoop连接器的版本,新增了很多重要的功能。其中包括对Hive(Hadoop的类SQL查询语言)的支持和Hadoop对本地MongoDB文件的存储能力,以及在同一MongoDB数据集运行增量MapReduce作业的能力。
据10gen产品营销总监Kelly Stirman介绍,MongoDB的Hadoop连接器已经发布一段时间了,应用也十分广泛。上周二(8月20日)的升级是自2012年4月Hadoop连接器正式发布以来最重要的一次更新。
也许很多人没有发现,MongoDB和Hadoop在过去几年里已经变得非常流行。MongoDB之所以成为很多网络和移动应用的业务数据库,是因为它支持JSON文件类型;Hadoop也成为很多公司大数据处理和分析的平台,尤其是大型网络公司和财富500强企业。Kelly Stirman称这两种技术往往同时部署在企业中。
Kelly Stirman 补充道,MongoDB连接器目前已经很受欢迎,因为它实际上是让用户在MongoDB数据库中处理数据,而不是把数据传送到Hadoop中进行处理。在现有的对MapReduce和Pig的支持的基础之上新增了对Hive的支持,能够让MongoDB更受欢迎。因为Hive拥有类SQL查询语言的本质,通过这种连接器的方式可以使公司更好的利用Hadoop中的数据。数据库创新公司Drawn to Scale也曾增加过一个类似的功能——基于MongoDB数据的SQL查询(SQL queries on MongoDB data)——但在今年初夏时,该公司已经倒闭。
在Hadoop分布式文件系统(HDFS)中新增对MongoDB本地BSON文件的支持,意味着用户可以将数据库文件备份到Hadoop中,同时可以在Hadoop里处理这些数据,避免在MongoDB集群中增加回撤的负载。
Kelly Stirman将MongoDB集合上运行增量MapReduce更新的能力称为“浓缩处理”。在这之前,用户只能运行存储在数据库全新集合中的MapReduce作业。这一名为“MongoUpdateWriteable”的新功能,能够让用户在现有集合中运行MapReduce作业。这种快捷的方式能够捕捉MongoDB集合每天的变化,而不是在每次运行MapReduce作业时都对比输出的变化或者查询新的集合。
数据库行业专家可能会质疑这些特性仅仅是改善现有MongoDB-Hadoop生态环境的功能性,或者它们是否将以某种方式影响MongoDB的市场份额。Kelly Stirman认为可能是后者,至少对于已经使用Hadoop的公司来说,MongoDB更有吸引力。10gen公司在销售周期中常常陷入与Cassandra和HBase的竞争中,但是现在“从本质上说,这三种数据库对于Hadoop而言地位相当。”
地位相当?或许是这样的,至少人们愿意用Hadoop的规模性弥补数据库较低的可扩展性。当然根据不同应用的特点,企业用户仍有充足的理由选择MongoDB以外其他的NoSQL数据库。