技术开发 频道

从亚马逊到MeLLmo:大数据时代的创新者

  数据的处理

  Hadoop是大数据时代数据处理的首选。脱胎于Google MapReduce的 Hadoop凭借其开源和易用的特性,很快成为了大数据时代的最耀眼的主角。目前,Hadoop已经成为大数据生态环境中不可或缺的一环,是拥有海量数据处理需求的公司的标准配置,许多商业创新和产品创新也都是围绕着Hadoop展开的。Yahoo也已经认识到了Hadoop的价值,将Hadoop拆分成一个独立的商业公司HortonWorks进行运营。

  虽然Yahoo是Hadoop最大的贡献者,也进行了Hadoop的商业化,但却没法阻止其他的颇具实力的竞争者进入这个前途无限的领域。Cloudera便是其中最耀眼的一个。且不说联合创始人中有Facebook和Google的精英们,就连Hadoop的创始人Doug Cutting也从Yahoo离职加入了Cloudera,这一举动当时在业界还引起了不小的震动。Cloudera最开始的模式是帮助企业管理数据,后来则转型为软件厂商。他们推出的软件发布包可以帮助企业更方便地搭建以Hadoop为中心的数据管理平台。Cloudera也是通过技术支持、培训和咨询等付费服务来盈利的,目前融资已达3600万美元。

  如果说Cloudera是依靠其华丽的精英团队来吸引客户的话,那么MapR则是通过过硬的产品来让业界认识到他们的价值。据称,经过MapR改造的Hadoop的速度可达原来的3倍。对于Hadoop的MapReduce模式,相信现在基本上已经没人提出质疑了,然而大家更关心的是,这玩意还能不能更快,MapR则很完美地回答了这个问题。EMC也宣布在一些产品使用MapR版本的Hadoop,而MapR也刚刚完成了2000万美元的融资。

  除了速度以外,Hadoop的易用性也是一个用户所关心的问题。虽然相比较其他的框架而言,Hadoop已经简化了许多使用MapReduce技术时所需要做的工作,但是对于终端用户而言可能还算不得十分友好。近日宣布完成570万美元A轮融资的海量数据管理软件商Platfora,就在试图解决这个问题。Platfora旨在提供一个更为友好且更具操作性的用户界面,而且这个产品可以兼容包括Cloudera和MapR在内的各个Hadoop版本,能够大大降低使用Hadoop的门槛,让更多的公司体验到Hadoop的技术优势。

  不仅仅是Hadoop本身,就连Hadoop的周边也不乏成功的创新者。AsterData已经成功地被老牌数据仓库厂商TeraData以2.63亿美元收购,他们的核心技术叫做SQL-to-MapReduce,可以将海量非结构化数据的处理技术和结构化数据的数据仓库技术结合在一起。而这种高速处理海量非结构化数据的能力,恰恰是传统数据仓库的公司所欠缺的,这也是为什么TeraData肯花如此大的价钱买下AsterData的原因。

  数据的分享

  数据本身也非常有价值。虽然,大部分的公司所面对的数据都是由内部系统或者交易记录日志之类的东西所产生的,但是这并不意味着他们不需要一些自己无法获得,或者已经被处理过的外部数据。因此,能够下载或者访问数据集,自然而然也就成为了商业需求,甚至美国政府都推出了官方的数据集网站可供下载。

  InfoChimps正是一家在线的数据集市,吸引了不少才华横溢的数据开发者。数据提供者可以将数据集上传至InfoChimps,可以供人免费下载,或者以一定的价格销售。另外,InfoChimps还提供很多API可供用户调用,在超过一定数量的免费API调用限额后,InfoChimps会向用户收取一定的费用。InfoChimps的目标就是让每个人都能找到自己需要的数据集,目前这家公司已经完成了A轮120万美元的融资。

  提供API服务的数据集分享公司并不止于此,Factual就是一家开放数据平台的公司。它所提供的多种数据集汉涵盖了本地服务、娱乐、教育和医疗等多个方面,不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中,为依赖数据的移动创新带来了很大的便利。Factual也是通过收费API调用的方式来盈利的,目前已经募集资金达2700万美元。

  数据的检索

  数据检索在搜索引擎时代已经不是什么新鲜事了,然而随着社交网络的盛行和大数据时代的到来,实时性检索的需求也就变得越来越强烈。事实上,实时性的需求一直以来都是存在的,只是受囿于技术和成本的原因而没有什么实质性的突破。如今,随着实时数据处理技术的不断成熟,实现实时性数据检索也已经成为可能。

  实时搜索引擎TopSy是目前少有的独立运营的实时搜索引擎,他们号称可以每秒钟索引100万份文档,这个速度基本上能够满足实时性的需求。目前TopSy主要索引的是Twitter的数据,它提供了API可供用户访问。在2011 年1月间,TopSy共收到5亿次请求,绝大多数是来自于API的调用。因此,公司也在考虑推出收费的API服务,以解决目前公司盈利模式不明朗的问题。 TopSy已经完成了C轮融资,融资总额度高达3000万美元。

  说到实时数据检索的问题,就不能不谈到Twitter刚刚推出的开源产品Storm。这个产品一经推出就立刻吸引了大家的目光。然而却少有人知道,Storm其实来源于Twitter刚刚收购的一家名为BackType的公司。这家公司由大名鼎鼎的YC进行孵化,在被收购以前就计划推出Storm,然而期间却经历了Twitter的收购,因此收购以后由Twitter发布 Storm也是顺理成章的事。Storm每秒钟可以处理数百万的消息,非常适合实时消息处理,而这也许是最为吸引Twitter的地方。

  最近还有一件与实时数据检索相关的收购案颇为引人关注,全球最大的连锁零售商日前宣布收购了移动和社交广告公司OneRiot,然而这次收购的交易金额并未对外透漏,OneRiot也被并入了沃尔玛实验室。OneRiot最早是一家实时搜索公司,后来借此涉足广告领域,并关停了实时搜索,专注于实时广告业务,并开始提供应用内移动广告的社交服务。OneRiot最吸引沃尔玛的地方,应该就是所谓的Big Data + Fast Data,将实时的数据处理与分析和广告联系起来,这也将是广告业未来发展的一个必然趋势。

0
相关文章