【IT168 专稿】随着大数据与数据科学“元年”即将结束,在接下来的12个月我们有怎样的期待呢?
预言一:更强大的分析工具
在这一年里,出现了很多围绕提高NoSQL和Hadoop基础存储和数据处理引擎的兼并和项目。这些无疑会继续下去,就像我们看到Hadoop正逐渐将其整体封装成套件、工具以及按需的云服务。希望不久后这些都会成为必需的基础架构。
▲Hadoop
放眼看去,已经存在一些直接供程序员和数据研究人员使用的早期的工具,如目前已经创建了Tableau和R等分析工具的Hadoop连接器。但还有另一个使大数据更强大的方式:即减少创建实验的成本。
一般有两个使大数据更强大的方式:
1、更好的编程语言支持。当我们考虑数据而不是业务逻辑时,如程序中的主要实体,我们必须创建或重新发现让我们专注于数据的程序。换句话说就是:尽量写较短的程序,使之可以清晰地看到我们对数据做了什么。而这些抽象本身又会用来为非程序员创建更好的工具。
2、需要对交互更好的支持。如果Hadoop有缺点,那一定是其促进的面向批处理计算的特性。但数据科学的这种灵活特性有利于那些需要更多交互的工具。
预言二:流数据处理
Hadoop在许多情况下会用到面向批量数据的处理,特别是数据报告频率不需要精确到分钟时。但批处理并不总是适合,特别是如移动和web客户端这样的在线服务需求,或者如财务和广告这样需要实时处理的需求。
在接下来的几年中,我们将会看到用来处理流或接近实时的分析与处理的可扩展框架与平台。同样Hadoop已被证实可处理大型web应用程序,这些平台会通过大型移动定位、社交需求来推动。
对于一些应用程序,网络世界不可能存在足够的空间来存储由你的事务产生的每一条数据:某种程度上你需要决定将一些数据忽略。拥有流计算能力可以使你无需通过map/reduce的存储-计算循环来对数据进行分析或忽略哪些数据。
关于实时框架,新出现的竞争者包括Twitter的Storm及Yahoo的S4。
预言三:数据市场的崛起
将你的数据与其他数据集结合时会变得更有说服力。例如,将天气情况加入到客户数据中,并发现在客户的采购模式中是否存在与天气相关的模式。如何获取这些数据集可能让人头疼,特别是如果想要在IT部门之外并且需要一定的准确度时。数据市场的价值在于提供一个关于该数据的目录,并提供一个简化的、规范化的方法。微软将Azure marketplace集成到分析工具中,这一趋势也预示着未来访问数据的便利性。
预言四:数据工作流与工具的发展
随着各数据团队得到各公司的认可,我们将期待这些团队的角色与过程越来越正规化。一个数据团队要想成功就需要将其整合到公司的业务中,而不是仅仅是做一个分析团队。
软件开发者已经有丰富的基础知识,包括wiki与源码控制,会与工具一起将他们的处理过程与需求公开给企业。而整合的数据团队会需要他们自己的定制版本来进行有效的协作。例如EMC Greenplum的Chorus,就为数据科学提供了一个社交软件平台。另外,使用这些工具会促使组织内部对数据进行处理。
▲EMC Greenplum的Chorus
数据团队将开始着手发展可重复过程,希望其能更快捷。他们做的工作与The Guardian 和New York Times这样新闻组织的报纸数据团队的开创性工作相比看起来做得会差一些:因此这些团队想要将数据在短时间内变为最终产品,就必须与记者进行紧密的合作。
预言五:增强可视化的需求
可视化会在工作流程中完成两项工作:说明与研究。商务人士可能只需要将可视化作为最终结果即可,而数据研究人员则会将可视化作为一种解决问题的途径,并用其来发现数据集的新特性。
如果一个以数据驱动的组织要培养所有员工对数据的感觉,那么在没有直接编程经验或统计学技能的员工之中,可视化对培养其数据处理能力起着重要的作用。
纵观由数据研究人员主导的不断产生商业需求的一年,如何创建可视化的人才是他们最大的需求。