【IT168 专稿】第五届中国数据库技术大会将于2014年4月10日-12日在北京五洲皇冠国际酒店举行,本届大会的一大亮点就是专家顾问团。所谓专家顾问团,是由10位资深数据技术专家组成的智囊团,帮助组委会把握大会技术方向、演讲主题,推荐及审核演讲嘉宾。
在一年一度的中国数据库技术大会召开前夕,记者有幸采访到本届大会专家顾问团的成员——网易杭州研究院副院长汪源,分享了他对数据库市场及技术趋势的观点,以及对数据库大会的期待和祝福。
他表示,作为业界最重要的数据库技术会议,期待第五届中国数据库技术大会能汇聚全国的数据库技术人才,分享与探讨经验,有更多优秀的讲师和分享主题。此外,数据库技术大会的内容都是实用的干货,也希望能有更多高层次的Keynote和学术界进展方面的内容。
数据库市场的回顾与展望
2006年,汪源在浙江大学计算机系完成博士学位,其博士期间的研究方向是Native XML数据库,也曾是国产数据库OSCAR的核心开发人员。毕业后加入网易杭州研究院,历任后台技术组技术经理、后台技术中心技术总监,现任杭州研究院副院长,领导前后台公共技术、信息安全、质量保障、网易私有云计算平台等技术工作。
在他看来,2013年的数据库市场既暗潮涌动,又略显平淡和失望。具体表现在以下三个方面:
1、老牌数据库实现里程碑式的突破。Oracle先是年中发布了12c新版本,提供对云计算非常重要的多租户特性和对大数据分析非常重要的SQL模式匹配功能;随后又在9月发布了In-Memory Option和云数据库。In-Memory Option的关键是可以与PeopleSoft等上层In-Memory Application相结合,充分发挥内存分析的性能优势,全面加速供应链、物流、项目资源管理等数据分析决策。In-Memory Option是Oracle针对SAP HAHA平台的应对,可以说是Oracle在2013年面向大数据领域发展的大事件,也是大数据业界的大事件。云数据库则提供了基于Oracle VM的数据库功能,类似与AWS RDS,加强了12c的云计算发展之路。
开源数据库方面,MySQL发布了期待已久的5.6版本,在复制、可伸缩性、引擎和性能诊断等方面取得重要进步,随后又发布了5.7的开发者里程碑版本,让我们可喜的看到在Oracle麾下的MySQL的发展能量。另一方面,由MySQL创始人Monty主导的MySQL体系的开源社区分支MariaDB开启了与官方MySQL分道扬镳、新特性丰富的10.0 Beta版本系列,强化了与Oracle官方MySQL双雄争霸的态势,也强化了人们对MySQL的开源前景的信心。此外,MySQL领域还有个激动人心的消息是TokuDB引擎的开源,弥补了MySQL应对高写入应用的弱势。汪源所在团队研发的MySQL存储引擎TNT在2013年也发展顺利,即将达到可上线应用的状态,届时将分享TNT的设计思路和经验。
2、新型数据库方面也取得不错的进步。NewSQL领域的市场宠儿MongoDB发布了2.4版本,提供了全文索引、哈希索引等重要功能并优化了对地理信息数据的支持。索引机制可谓数据库的灵魂,因此2.4版本的这些新功能都可谓重量级。坐靠Hadoop大树的HBase发布了0.96版本。虽然版本号的变化看似很低调,但这个版本大幅提升了稳定性、可操作性以及伸缩性,同时修复了超过2000个问题。除了市场应用比较多的MongoDB和HBase,一些发展中的新型数据库也在不断完善。如内存数据库MemSQL发布了支持分布式的2.0版本,继续引起不少人的关注。
3、在数据库市场方面,2013年也出现不少有趣的态势。首先是Oracle和MySQL方面:2013年去IOE运动引起了广泛的讨论和关注,虽然难以确定去IOE运动的市场影响有多大,但必然会导致部分用户在选型时更多的考虑开源的MySQL而不是Oracle,比如2013年看到消息说上交所也开始积极的应用MySQL。另一方面,Google宣称已经将大量的MySQL实例转为使用MariaDB。这两个趋势结合起来,就是数据库市场从封闭昂贵的Oracle这样的商业数据库流向社区支持、开源的MariaDB。另一方面,Oracle的Exadata持续改进,软硬一体化的思路仍值得持续关注,特别是SSD和混合存储的应用趋势。
总的来说,虽然2013年数据库领域取得了诸如上述的发展和进步,但仍然缺乏特别重大的突破。从技术角度看,2013年还是缺乏如Google Spanner这样令人眼前大亮的突破。令人失望的是Oracle对MySQL的政策越来越封闭,比如不公开测试代码,很多功能开始放在不开源的企业版中。开源MariaDB 10.0的雄心勃勃令人期待,但只是Beta还未正式发布,同时MariaDB团队对底层引擎的掌控能力有些不足,这都为MySQL未来的发展抹上些许阴影。
展望2014年的数据库市场,汪源认为数据库领域最大的进步将来自于MySQL阵营。Oracle和MariaDB将齐头并进,官方的MySQL可望发布5.7 GA,MariaDB 10也将发布GA版,两者将对MySQL的性能、复杂查询处理能力、复制与高可用等方面做出重要改进。基于Google的带动作用,市场将逐渐接受MariaDB。这两者将引导MySQL走向开源、进步的康庄大道。此外,从硬件趋势上,越来越多的数据库将运行于SSD存储或混合存储之上。
大数据领域的技术与应用
谈到大数据市场,汪源认为大数据的价值主要要通过分析和智能化来体现。要支持大规模的数据分析,首先需要成熟的基础设施。在这方面,Hadoop体系的地位毋庸置疑。2013年Hadoop不断向生态系统的方向演化,单独的资源管理层YARN的推出使得可以Storm、Impala、Spark、Shark等不同的分布式计算框架与Hadoop MapReduce集群共存,从而可以围绕Hadoop核心获得更好的发展。同时,社区也在极力改进Hadoop的适用性和性能,Stinger Initiative技术提出新的运行时框架Tez等措施有望极大改善Hadoop体系的SQL分析能力。
在Hadoop之外,Berkeley主导的BDAS项目也在不断深化发展,其中的Spark和Shark在2013年推出了多个新版本,在通往成熟的道路上不断进步,当然BDAS也注重与Hadoop共享基础。在MPP架构的分析系统方面,受Google Dremel系统的启发,开源的Impala项目发展不错,Facebook也开源了类似的系统Presto。
智能化方面,最关键的是以深度学习为代表的机器学习技术的发展。首先,深度学习的技术进步不少,如Yoshua Bengio的论文,微软的Li Deng等研究者所提出的可以并行训练的DSN模型等。深度学习应用上的进步也不少,如Andrew Ng的NaSent。但最重要的还是Google等业界领袖疯狂的投入到人工智能领域。以Google为例,3月份收购DNNresearch,将深度学习领域的祖师爷Geoffrey Hinton招至麾下,而后Google在2013年又收购了Wavii等8家其他的人工智能领域的公司,在人工智能领域的投入令人咋舌。Google的BRAIN项目旨在探索传统人工智能与神经科学的联合研究,Google甚至联合NASA开始量子人工智能的研究。Facebook也成立了人工智能实验室,由鼎鼎大名的Yann LeCunn领衔。国内则有百度也成立了深度学习研究院(IDL),招募了余凯和吴韧博士等大牛。虽然目前的成果还不是特别显著,但在计算机视觉和自动驾驶等方面的进展仍令人可以乐观的期待这些商业巨头的投入可以带来智能化方面的重大进步。
最后,在大数据的应用方面:互联网金融可谓2013年大数据的明星应用。以阿里小额贷为代表的供应链金融可谓完全建立在大数据分析挖掘的基础之上。余额宝的关键是通过模型测算赎回规模,也是大数据的有效应用。当然还有非常多其他领域的应用,比如国内热炒的智慧城市,通过Facebook“like”分析性取向、政治观点、种族、智商等等,Amazon竟然疯狂到想未下单先发货,给人一种大数据似乎可以无所不能的感觉。
还有一个与大数据有关的领域也有加速发展的迹象,就是众包。众包可以解决海量数据的收集、标注等问题。2013年我们可以看到如拍拍赚这样的APP进入市场,试图通过众包完成全国3亿门址的收集,如果能顺利完成,将是地理信息数据库的飞跃。
汪源认为2014年大数据领域的进展主要有两点:一是Hadoop生态系统将会进一步完善,主要来自于YARN、Stinger、Impala、Spark等项目的成熟与完善,Hadoop项目本身与Impala、Spark等上层项目将融合的更好。另一方面,Google和百度在图像搜索和计算机视觉领域或将取得重要进步。
采访的最后,汪源表示,在本届中国数据库技术大会中,他最关注的是大数据应用方面的主题,比如当当网傅强的《大数据推动电子商务的商业价值发现》和百度牛正雨的《互联网图片数据的挖掘与应用》等。同时,希望大会内容越来越精彩,层次越来越丰富,祝福大会越办越好!
更多精彩尽在2014年4月10日-12日在北京五洲皇冠国际酒店举办的第五届中国数据库技术大会,2月29日之前订票可享受7.8折最低票价。