Hadoop技术峰会：农业银行的大数据探索-技术开发专区

Hadoop技术峰会：农业银行的大数据探索

作者：王晓东编辑：王晓东 2013-11-22 17:40 IT168网站原创

　　【IT168 现场报道】2013年11月22-23日，作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会，2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者，以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

　　Hadoop中国技术峰会由China Hadoop Summit专家委员会主办，由IT168、ITPUB、ChinaUnix协办，渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题，旨在通过开放、广泛的分享和交流，着力于促进中国企业用户提高应用Hadoop的能力和水平，降低Hadoop技术应用门槛和投资预算门槛，推广大数据的应用价值。

　　在下午的一场分论坛演讲中，来自中国农业银行软件开发中心，高级系统架构师朱恒春分享了主题为《农业银行的大数据探索》的演讲，其主要介绍了中国农业银行在大数据方面的探索，以及中国农业银行在大数据实施方面的一些案例。

▲中国农业银行软件开发中心，高级系统架构师朱恒春

　　农行对大数据的探索

　　据朱恒春先生介绍，农行大数据探索最早是起于2010年到现在有将近三年多的时间。“这其中发生了很大的变化，第一点人员上的变化，起初刚开始是四五个人的团队开始研究Hadoop技术。我们现在实际上把大数据技术和Hadoop在银行的领域是等同的，再也没有别的工具来支持大数据。”

　　此外，原来四五个人的团队经过三年多的发展，现在总体加在总行的层面应该是有30到40人的团队。“原来是一个部门单兵作战，现在已经有很多的部门，特别是像更高一级监管的部门对Hadoop技术都非常有兴趣，还有一些兄弟的开发部门也在经常项我咨询Hadoop到底怎么用，是什么样的工具。”

　　农行大数据的现状与未来

　　对于农行为什么要开始做大数据平台，朱恒春先生解释说，“第一点海量的数据处理的压力，这个不会像外面大会里讲的大数据如何的大，其实对于农行来说，在处理数据的方面实际从工具上是比较匮乏的，我们希望高性能的计算只能借助于IBM的大机，大机是非常昂贵，一台就上亿，而且每年还有收费的项目，把很多海量数据处理放在大机上不合适的。”

　　现在，农行发展到现在一般的是结构化数据和非结构化数据两个方面都在增长，非结构化数据，存量数据，特别是身份证的复印件都已经达到PB级以上的量，“Hadoop很火我们就注意到了，研究Hadoop使用Hadoop也是为了农行在补充计算能力上的一种缺失。”

　　第二点在于，互联网金融发展是如火如荼，大家都知道，现在阿里小贷、人人贷、余额保，大家经常会把钱从银行取出来转到余额保上，这样即能产生利息又可以支付。

　　此外，有了这样的需求，农行是如何做大数据平台的?据悉，现在农行的架构是Hadoop加上MPP SQL。农行搞Hadoop的时候是基于开源的阿帕奇，去年就从阿帕奇是1.0、2.0开始，现在已经是2.0仍然是机遇阿帕奇来做的。

　　“农行跟百度、淘宝或者Hadoop的提供商是不一样的，我们并不是做Hadoop卖给谁，而是自给自足来做的，我们是侧重于应用，我们没有那么强的能力研究它的代码，又推出新的版本，修改一个不定做一份贡献，我们的思路不是这样。我们的思路更多的是把Hadoop用起来，对农行的业务能提供一些创新思路，我们的终极目标是使用Hadoop为农行带来真正的利润。”

　　据了解，农行发展所使用的一些组件包括，HDFS、并行计算、HBase、Oozie等等。主要应用的方面是海量的历史数据的存储、查询、批量的数据加工，数据加工是基于关系型的数据，可以看成是跟关系型数据库完成的任务是一样的，但是要借助Hadoop的高性能。

　　关于农行未来的Hadoop发展方向，朱恒春先生介绍说，“首先Hadoop的方向认为是个非常正确的方向，符合未来农行数据处理的需求，一定会积极的跟进Hadoop的发展，主推2.0版，最近2.0版发布之后应该会有很大的改善。”

　　按照农行当前的策略是积极的探索利用开源版本搭建应用的可行性，Hadoop本身就是开源的，真正把Hadoop做成纯商业的封闭的版本，对未来的外围技术的扩展，特别是服务的迁移，对于商业银行来说都是极大的考验。

关注我们