【IT168 专稿】大数据概念自诞生以来,与之相关的争论之声就不绝于耳。如今似乎每一家软件供应商、咨询服务企业以及意见领袖都在以自己的理解为其进行“正确”定义。尽管笔者一直认为这种所谓“正确”的定义根本不存在,本文将专注于为大家破除最常见的大数据认识误区。
误区一:所有数据都将尽在掌握
从很多方面来看,我们目前生活的时代都前所未有的,过去从未面对过如此庞大的数据量。把MB和PB的概念抛在脑后吧,现在EB(即艾字节)级别的数据已经真实存在。笔者最近刚刚拜读了一份报告,文章指出生活在当今工业化社会的人们每天所接触并使用的信息比十五世纪时一个人一生所能接触的信息量还大。
由于数据总量之庞大完全可以用深不可测形容,目前任何个人或者机构甚至无法对与特定主题相关的全部数据进行存储及检索,更不用说整体数据量了。没错,就连搜索巨头谷歌也不例外。谷歌公司的软件只会检测表面Web而非深层Web。有人估计后者的实际大小将达到前者的二十五倍。因此,当大家在搜索任何信息时,其列出的内容只占互联网实际信息总量的4%到6%。
即使我们放低要求,也无法获取自己需要的某些有价值的信息,例如哪些特定客户曾经购买过我的作品——虽然Amazon以及巴诺商店这样的网站肯定保留了此类信息。我个人非常乐于结识自己的读者,然而即使是在大数据如火如荼的当下,这部分信息仍然遥不可及。总而言之,我们永远无法获得所有相关数据。
误区二:需要掌握全部数据
毫无疑问,庞大的数据量有助于解决问题,但千万不要误以为所有数据在业务决策方面都拥有其必要性。明智的大数据机构已经清醒地意识到,捕捉全部相关信息除了浪费资源之外毫无意义。
似乎每天都有新的数据源出现,但可以肯定的是它们并非都具有实际价值。举例来说,电子邮件信息中通常包含重要的企业动态信息,明智的公司会以此为目标挖掘数据以评估员工情绪、猜测哪些员工有可能辞职。
但这并不意味着所有电子邮件都有关注的必要。企业邮箱中往往充斥着大量垃圾邮件,浪费资源对其内容加以分析无疑是种愚蠢的行为。
我们并不需要掌握全部数据。没错,数据的确是越多越好,但请别把时间浪费在无法完成的任务上。
误区三:大数据拥有稳定的收益
大家可能听说过这样一条格言:“我拥有自己能够处理的所有数据,只是缺乏足够的信息。”在之前的文章中,我曾经提到过利用外来数据真正指导业务决策是件极为困难的事情。我们甚至无法百分之百确定企业合并、新产品推出、公司合资乃至个别员工离职等状况。
难道大数据不正是在帮助我们应对不确定性吗?这么说是没错,不过千万别把降低不确定性与消除不确定性混为一谈。也许未来这一愿望会变成现实,但至少目前还不行,而且在可以预见的未来实现的机会也很渺茫。
对PB级非结构化数据进行分析能够有效帮助企业了解客户情绪。不过千万别误以为大数据能够消弭所有不确定性内容。生活与业务中总是存在难以预知的状况,只有做好多方面准备才能有备无患。
误区四:大数据属于暂时性趋势
我们可以认为目前大数据的代言人应该是Nate Silver——至少在他离开《纽约时报》之前的状态。这位知名博主兼统计学家曾在2012的美国大选中预测奥巴马将赢得九成民众的支持,最终结果也证实了他的判断。更令人惊讶的是,竞选期间的民意调查显示奥巴马与罗姆尼相比居于劣势。Silver的统计模型非常准确,他也因此成为人们心目中的预测达人。
可以肯定的是,大数据与数据科学的概念将在未来几年中逐渐淡化,但其影响与处理流程仍将继续存在。我们不喜欢拿大堆专业术语和行话唬弄人,但那些坚信大数据属于暂时性趋势的专家实在是愚不可及。可以肯定的是今年我们共同产生及消耗的数据量必然要高于去年。
大数据中的不确定因素永远无法彻底消除、这项技术也不足以回答所有问题。不过仅仅将其作为暂时性趋势加以处理很可能让你的企业陷入危局。现在各机构应该尽快意识到大数据的重要意义,一味抗拒只会让企业在大数据的洪流中处于被动并最终折戟沉沙。