技术开发 频道

大数据令生命周期管理面临更大挑战

  【IT168 专稿】集成化生命周期管理(Integrated lifecycle management,简称ILM)在迎接大数据趋势的同时也面临着新的挑战。目前可以将此类挑战归纳为三个主要的类别:无穷尽的大数据总量、大部分新数据的短期有效性以及遵循3V规范(即数量、速度与多样性)的数据一致性难题。

  这就是Loraine Lawson最近发表的文章中汇总出的主干内容。她在这一话题上的观点与我的总体思路基本一致。但我对她“ILM对于大数据而言比小型数据分析环境更加重要”的结论无法认同。在我看来,大家需要做的是继续保持过去处理业务数据集时的一贯态度——无论是安全性、治理工作还是管理任务,既不必更多也不能更少。

大数据令生命周期管理面临更大挑战

  新形势的不同之处在于,大数据环境全面实现ILM正变得越来越困难,以下领域的迅猛变化令技术人员颇感无所适从:

  ·新型大数据平台:大数据普及将大量新型平台(包括Hadoop、NoSQL、内存数据库以及图形数据库等等)引入企业计算环境当中,新因素与MPP RDBMS(即大规模并行关系类数据库)、列式以及三维数据库等老问题相掺杂令状况更加难于控制。单单依靠现有ILM工具,大家很难冲出由新平台所构成的包围圈。此外,取决大家将大数据与公共云相结合的程度,各位可能需要利用多种多样的ILM功能(包括强、中、弱等类型),甚至需要借助供应商环境内的本地功能。为了尽可能降低新环境所带来的潜在风险,大家必须对新型大数据平台进行认真审查、确保其具备足以与部署角色相匹配的ILM功能(例如数据安全、治理、归档及保存等)。

  ·新型大数据:大数据并不会强迫企业用户改变现有数据治理机制,例如保存并管理办公系统记录(包括客户、财务及人力资源信息)。这些工作仍然由现有企业级数据库打理,其中大部分运行在基于关系类数据库的传统数据平台之上,同时融合了强大的ILM功能。不过这些数据记录域系统不太可能存在于新型大数据平台当中,大部分此类系统更倾向于处理来自社交、事件、传感器、点击流、地理位置及其它新型来源的数据。这些新型数据域往往比较“短命”,进一步解释,我们没有必要在永久性系统当中为其保留大量记录。

  ·新的大数据规模:大数据方案的出现并不代表我们的新型平台能够支持无限量、实时速度、任意类型的数据处理任务。新型数据单从规模角度讲根本不可能被存储在任何单一位置,伴随而来的还有大量顽固的技术及经济类制约因素。这样的情况促使大数据管理者专注于调整多点存储管理、归档及保留等方面的执行策略。当大家对自己的大数据环境进行扩展时,必须确保ILM要求能够与当前容量限制(存储容量)、速度指标(带宽、处理器性能以及内存传输能力)、类型(元数据深度)相匹配。

  就上述问题咨询了权威人士,他们认为大数据革命终将令使用者不必删除任何数据——除非我们认为有必要这样做。是的,大数据似乎将继续成倍增长直到永远,而大数据平台的使用成本也将一路急剧下降。但我个人对此表示怀疑,大数据云在实施以及管理方面的成本不可能无限趋近于零。

  如果我的预感是正确的,技术人员不可能把几乎永无止境且规模持续膨胀的大数据流一一加以保存——即使我们愿意。生命周期终有尽头,而这正是我如此看重ILM的原因。

  原文链接:Big data means big challenges in lifecycle management

  更多精彩尽在2013年11月22~23日的Hadoop中国技术峰会(China Hadoop Summit 2013),北京永泰福朋喜来登酒店。

  现在报名即可享购票优惠。

Hadoop应用案例分析:在百度的应用
大会官网报名地址

0
相关文章