技术开发 频道

IBM杰出工程师:如何集成和治理大数据?

  【IT168 专稿】“大数据治理”在IBM杰出工程师Ron Ben Natan博士的眼中要比传统结构化数据的治理难度大得多。他认为大数据治理既有基于传统的编程模式,又有大数据下特有的方式,是没法利用传统数据治理方式来操作的。同时,在大数据的模式下,出现大量新的数据结构和新技术,如聚合型数据结构和JSON和Avro技术等。以上种种都体现出大数据的治理更具有挑战性。

  在北京国家会议中心举办的“见智,见未来——IBM 2013技术峰会”上,IT168记者采访了IBM杰出工程师及InfoSphere Streams高级开发经理James R Giles博士、IBM杰出工程师、副总裁兼Guardium首席技术官Ron Ben Natan博士、IBM软件集团大中华区信息管理软件DSCO销售总监甘佳凌,以及IBM中国开发中心资深主管经理洪桦,共同分享了IBM在大数据市场的产品策略,以及大数据集成和治理的方法。

IBM杰出工程师:如何集成和治理大数据?
▲IBM杰出工程师及InfoSphere Streams高级开发经理James R Giles博士

  大数据如何治理?

  在本届技术峰会上,IBM的发言人不止一次提到“大数据”。作为2013年的工作重点,IBM的业务都围绕大数据与分析展开。在IBM看来,大数据是新一代自然资源,并且是不断增长的新型资源,需要新的技术和工具,对它进行挖掘和分析。大数据也是下一代计算的新纪元,是新的计算时代。

  治理是大数据技术的重要一环,Ron Ben Natan博士认为,大数据治理就像把所有鸡蛋放在一个篮子里。并不是为了大数据才做分析处理,而是出于对商业决策起指导作用的目的。如果大数据的数据质量不高,就会面临很大风险——基于大数据得出的分析结果并不正确,直接影响到企业未来的发展。

IBM杰出工程师:如何集成和治理大数据?
▲IBM杰出工程师、副总裁兼Guardium首席技术官Ron Ben Natan博士

  治理的英文单词是Governance,跟政府的Government很像,因此治理会涉及到数据相关的法律法规。Ron Ben Natan博士认为,大数据的治理不能在拥有大量数据之后开始治理,而是从数据开始生成的时候就开始考虑要以大数据的方式来进行治理。由于审计或者其他原因,数据质量作为重要因素时,要对数据进行清洗。在分析和决策阶段,数据质量和数据整个生命周期的管理成为重要因素,这就是整个生命周期的大数据的治理。

  据Ron Ben Natan博士介绍,大数据阶段数据治理的方法有如下四种。第一,企业经历多年的沉淀,内部有很多数据,如何把现有的数据转成大数据?可以使用的数据集和集成需求下数据之间的转换方式,IBM可以帮助企业在现有的关系型数据和大数据的数据模型下进行自由转换。

  第二,数据屏蔽。在Hadoop大数据环境下的数据屏蔽,即数据漂白的方式。当把所有的数据放在一起,数据中很多部分跟企业和个人相关的数据是具有敏感性的,在不同的人手里这些敏感的数据用做不同的用途。如何防止这些数据流入流出的过程中敏感数据的泄露,IBM可以帮助客户把数据从现有的企业环境移植到大数据环境当中,对相应敏感的数据可以提供漂白的解决方案,从大数据环境中流出到其他的环节,或者企业现有的应用环境或者新的应用环境。这种数据也可以进行漂白的方案,能够保护企业和个人一些隐私数据不被泄露。

  第三,数据加密。尤其在大数据环境下,很多节点是物理上分布在一起,或者根本在不同的一些领域、地域,处于不同的机房和不同的阶段,如何保证这里面的数据不被非法利用。数据加密可以提供中间的透明方式,保护只有特定用户使用特定应用程序和特定方法来访问到真实的数据。

  第四,大数据Hadoop的保护。IBM在大数据保护之前,已经对现有现在市场上流行的所有数据源都提供了保护方案。基于这种保护方案基础之上对Hadoop以及IBM的BigInsights等大数据环境提供数据保护的方案。

  Ron Ben Natan博士最后总结到,IBM在2011年之前基于传统的企业数据库和数据仓库产品治理方面的组合操作,所有基于生命周期数据治理的方式。从2011年到2013年的过程当中,IBM开始积累并且建立了大数据产品治理的策略,迄今为止这是IBM最大的大数据的产品组合。未来,IBM也会尽力去投资大数据环境,尤其是NoSQL环境治理的工具和方案。

0
相关文章