技术开发 频道

分析师普遍看好Hadoop技术的发展空间

  【IT168 评论】Richard Winter是Winter Corp.咨询公司的总裁,他说大数据技术方面出现了两个主要发展趋势。首先,传统的数据仓库供应商正在引入可扩展性优化技术,以适应事务数据容量的增加。其次,诸如Hadoop、MapReduce和NoSQL数据库等新开源技术也在兴起,主要用来替代用于跟踪其他形式大数据的数据仓库——例如,Web活动日志和检测数据。

  Winter说:“如果您有大量的数据需要管理和分析,那么数据仓库可能是一种非常昂贵的解决方案。”它对于事务数据并非一定是有效的:通常数据仓库技术在处理组织中保持高度结构化、严格管理和使用广泛的数据时是具有较高投资回报的。

  但采用Hadoop类型的方法来处理大数据管理在特定情况下更为经济。例如,科学研究过程可能产生大量的数据,位于日内瓦的高强子碰撞机每年产生15PB的高能物理实验原始检测数据。

  Hadoop是一种框架,支持在集群系统之间采用分布式机制处理大数据集;它的MapReduce组件是用于编写基于Hadoop应用程序的编程模型。Forrester分析师Kobielus认同Winter的观点,他也认为Hadoop在管理大数据方面发挥重要作用。而在2011年6月的一篇博客中他提到,Forrester客户关于Hadoop的咨询已经从“到底Hadoop是什么?”变为更多是“有哪些供应商提供可靠的Hadoop解决方案?”

  Hadoop并非适合所有情况

  Kobielus认为Hadoop很好但仍然不成熟。他在博客中提到,Hadoop已经被许多公司成功应用来支持“极具可扩展性的”分析应用程序。另一方面,在有更多数据仓库供应商应用这项技术以及早期应用者整合了核心技术协议之后,Hadoop才会被更广泛的企业应用。

  根据Kobielus的介绍,在今年初Forrester Wave发布一篇关于数据仓库平台的报告,报告提到的供应商中只有两家在他们的核心产品中使用了Hadoop。他写道:其他供应商“只是初步接触Hadoop,而且仅仅停留在使用层面。”但是他预期大多数主流供应商“将来可能会通过收购而更全面地使用Hadoop”。

  在用户端,Kobielus表示MapReduce似乎是他所采访公司所应用的Hadoop的唯一通用元素。他写道:“除非我们都接受在每一次部署中投入资源进行优化,否则我们还不能说Hadoop已经具备全面应用的水平。”此外,管理Hadoop和相关项目的Apache开源社区应该将技术提交到一个正式标准过程,以保证跨平台互操作性。

  根据分析,现在的Hadoop部署通常是由应用程序开发人员完成,组织的IT和数据仓库管理员并未参与其中。多伦多一家咨询公司WiseAnalytics的总裁和创始人Lyndsay Wise说,就长期而言,Hadoop很可能会被更多地整合到主流的数据仓库过程中。

  大数据技术会越来越受到重视吗?

  Wise说:“几年前,主数据管理和数据治理的概念大多出现在数据仓库领域之外,但是现在组织更关注于他们数据仓库环境内的这类问题。”类似地,随着数据变得“越来越复杂”,以及组织认识到提高数据仓库策略的管理效率有利于从信息获取更高的商业价值,越来越多的数据仓库团队最终会参与管理Hadoop和MapReduce实现。

  但是,TechTarget公司的业务应用程序和架构媒体部门的研究主管Wayne Eckerson说,组织在大数据技术的投入程度应该避免受到市场宣传的影响,这其中既包括反对传统数据中心仓库的言论,也包括推崇Hadoop及其他新技术的言论。

  Eckerson指出,Hadoop尽管是开源的,但也并非免费的午餐。除了硬件和其他技术成本,还包括许多内部资源问题:“无论用什么技术,您都需要配备人员——而他们中有一些是非常稀缺的人才。”

  Eckerson提醒说,Hadoop也可能产生废进废出的情况。他说:“Hadoop人员需要确定他们处理的信息是否有价值,因此它们需要清除无价值的信息,否则会将时间浪费在无用的数据上。Hadoop是否有用并不是问题;问题是Hadoop是否真正被某个特定组织所使用。”

  原文链接:http://www.searchdatabase.com.cn/showcontent_54967.htm

0
相关文章