技术开发 频道

网易研究院汪源:MySQL或成为最大黑马

  大数据领域的技术与应用

  谈到大数据市场,汪源认为大数据的价值主要要通过分析和智能化来体现。要支持大规模的数据分析,首先需要成熟的基础设施。在这方面,Hadoop体系的地位毋庸置疑。2013年Hadoop不断向生态系统的方向演化,单独的资源管理层YARN的推出使得可以Storm、Impala、Spark、Shark等不同的分布式计算框架与Hadoop MapReduce集群共存,从而可以围绕Hadoop核心获得更好的发展。同时,社区也在极力改进Hadoop的适用性和性能,Stinger Initiative技术提出新的运行时框架Tez等措施有望极大改善Hadoop体系的SQL分析能力。

  在Hadoop之外,Berkeley主导的BDAS项目也在不断深化发展,其中的Spark和Shark在2013年推出了多个新版本,在通往成熟的道路上不断进步,当然BDAS也注重与Hadoop共享基础。在MPP架构的分析系统方面,受Google Dremel系统的启发,开源的Impala项目发展不错,Facebook也开源了类似的系统Presto。

  智能化方面,最关键的是以深度学习为代表的机器学习技术的发展。首先,深度学习的技术进步不少,如Yoshua Bengio的论文,微软的Li Deng等研究者所提出的可以并行训练的DSN模型等。深度学习应用上的进步也不少,如Andrew Ng的NaSent。但最重要的还是Google等业界领袖疯狂的投入到人工智能领域。以Google为例,3月份收购DNNresearch,将深度学习领域的祖师爷Geoffrey Hinton招至麾下,而后Google在2013年又收购了Wavii等8家其他的人工智能领域的公司,在人工智能领域的投入令人咋舌。Google的BRAIN项目旨在探索传统人工智能与神经科学的联合研究,Google甚至联合NASA开始量子人工智能的研究。Facebook也成立了人工智能实验室,由鼎鼎大名的Yann LeCunn领衔。国内则有百度也成立了深度学习研究院(IDL),招募了余凯和吴韧博士等大牛。虽然目前的成果还不是特别显著,但在计算机视觉和自动驾驶等方面的进展仍令人可以乐观的期待这些商业巨头的投入可以带来智能化方面的重大进步。

  最后,在大数据的应用方面:互联网金融可谓2013年大数据的明星应用。以阿里小额贷为代表的供应链金融可谓完全建立在大数据分析挖掘的基础之上。余额宝的关键是通过模型测算赎回规模,也是大数据的有效应用。当然还有非常多其他领域的应用,比如国内热炒的智慧城市,通过Facebook“like”分析性取向、政治观点、种族、智商等等,Amazon竟然疯狂到想未下单先发货,给人一种大数据似乎可以无所不能的感觉。

  还有一个与大数据有关的领域也有加速发展的迹象,就是众包。众包可以解决海量数据的收集、标注等问题。2013年我们可以看到如拍拍赚这样的APP进入市场,试图通过众包完成全国3亿门址的收集,如果能顺利完成,将是地理信息数据库的飞跃。

  汪源认为2014年大数据领域的进展主要有两点:一是Hadoop生态系统将会进一步完善,主要来自于YARN、Stinger、Impala、Spark等项目的成熟与完善,Hadoop项目本身与Impala、Spark等上层项目将融合的更好。另一方面,Google和百度在图像搜索和计算机视觉领域或将取得重要进步。

  采访的最后,汪源表示,在本届中国数据库技术大会中,他最关注的是大数据应用方面的主题,比如当当网傅强的《大数据推动电子商务的商业价值发现》和百度牛正雨的《互联网图片数据的挖掘与应用》等。同时,希望大会内容越来越精彩,层次越来越丰富,祝福大会越办越好!

  更多精彩尽在2014年4月10日-12日在北京五洲皇冠国际酒店举办的第五届中国数据库技术大会,2月29日之前订票可享受7.8折最低票价。

Facebook专家:Hadoop不足以处理大数据
进入官网了解更多详情

1
相关文章