技术开发 频道

业内视角:Hortonworks眼中的大数据

        【IT168 专稿】目前到处扩散的朦胧定义还不足以清晰表达大数据所带来的收益,Hortonworks公司的一位高管如是说。今天我们要从业内人士的视角出发,看看他们眼中的大数据到底是怎么一回事。

  那么,大数据到底是什么?这一般技术人员会用经典的3V模型来解释——容量、速度以及数据多样性——这种说法几乎成为行业惯例。不过这种流行定义太过含糊不清,并没能真正解释大数据平台给使用者带来的切实利益。

  Hortonworks公司营销副总裁David McJannet认为,通过更为实际的描述来解释大数据给现实世界带来的好处,更有利于将这套新机制推广到各行各业。

  “大数据绝不是什么说不清、道不明的东西,”McJannet在接受记者采访时指出。“从务实的角度来看,这是一种企业原先并未关注的新数据类型,主要作为新型分析应用程序的运作基础。”

  当然,Hortonworks公司向全世界推广大数据明确概念的举动也有自己的考虑。作为Hadoop生态系统中的主要推动者,这家位于加州帕洛阿尔托的企业软件公司能够通过说服企业用户存储并分析大量数据帮助自身销售产品、赚取利润,而且这一新兴领域在过往一直为客户所忽略。

  因此他们提出了一种替代性定义(从客观角度出发):大数据的宗旨在于“以全新数据类型为基础建立新型分析应用程序,从而更好地为客户提供服务并推动竞争优势”。

  这条看似简单的定义能够帮助企业“超越以往对大数据的模糊认识”。

  当然,不同大数据之间并无相似之处,因此Hortonworks公司根据其具体来源划分出五种不同数据类别:社交媒体、服务器日志、Web点击流、设备/传感器以及地理位置。

  但企业用户要如何使用这些信息?

  先来看社交媒体数据。企业目前已经开始利用Facebook、Twitter以及此类社交网站了解用户针对某种事物的“情绪”,McJannet告诉记者。举例来说,一位电影制片人可以根据此类数据了解新片获得的评价,并以社交媒体用户的意见为基础对市场营销活动进行优化调整。

  服务器日志能帮助系统管理员利用Hadoop发掘数据,从而识别并应对重要问题。McJannet举了这样一个例子:“如果我在我的网站上追踪每一条单一入站请求,并根据地理区划对其进行叠加,则能够更好地判断自己的大型客户主要集中在哪些区域、在哪里可能面临潜在的安全问题。”

  Hadoop带来的点击流数据能够帮助用户对传统数据管理系统的过载状态信息进行高效管理。

  “如果我能够捕捉到来自自己网站上的所有点击流数据——当然,这样庞大的数据记录会很快填满现有数据库——也就是由纯粹点击量所产生的数据,”McJannet解释称,“那么将其保存在Hadoop当中……会帮助我根据信息创建出非常有趣的分析应用程序。”

  设备数据在很大程度上也属于尚未开发的大数据来源。

  “设备绝对是最大的数据来源之一,其涵盖范围囊括了空调机组、冰箱、货车乃至家用机械等各个常见领域,”McJannet指出。“此类流程将带来爆炸式的数据增长。”

  目前全世界的在运行手机达到数十亿部,因此移动数据采集设备具有广阔的市场发展空间。“每一次在通话中经历电话信号塔之间的信息转换,都会产生一部分数据片段。如果有人打算创建分析应用程序,这些信息就会成为非常宝贵的资料基础,”McJannet表示。

  地理位置数据受关注时间同样不长,直到十年之前还只存在于宇宙空间技术及军方应用领域。如今它已经为商业应用程序指明了一条发展新路。

  举例来说,运输公司完全可以每10到60秒追踪一次各车辆的地理位置数据,并由此积累起PB级别的相关信息。

  “如果打算在运营流程中使用地理位置相关数据,大家首先应该考虑自己有能力创建什么样的应用程序以及能够从中提取出哪些有价值信息,”McJannet总结道。

0
相关文章