技术开发 频道

互联网上的数据挖掘

  调研

  Facebook手里有3亿用户和每天4000万次状态更新,利用如此巨大的海量数据,可以对几乎任何话题做评测。诸如人们最关注的品牌,最关心的政治问题。于是工程师们决定利用这些数据,来评测国民幸福指数(Gross National Happiness)。这个新应用将最大可能地评测美国Facebook用户是幸福还是悲观的。产品开发人员是这样描述的:

  把来自全国各地的数百万Facebook用户的状态更新数据集合在一起,可以说明国民的幸福感有多强。评测国民感到幸运、幸福,以及对生活满意的程度是这项国民幸福指数评测项目的一部分。当用户在状态更新中使用比平时多的积极词汇(或少的消极词汇)时,表示这一天比平时更幸福。

  这些数据都是匿名从Facebook论坛上收集的。为确定某些状态信息究竟表示幸福还是悲伤,或两者都不是,这项应用还必须搜索开发人员确定的与每个情绪相联系的流行短语和词汇。结果是:周一人们的幸福指数最低,然后一直到周末,幸福指数不断上升,在下一周开始时,又跌至最低。通常,幸福指数在假期附近较高。今年6月底,人们的幸福指数急速下滑,这可能与流行音乐之王Michael Jackson的逝世有关。

  旅游

  Center´d是由YahooLocal这款产品的前总经理Dulski掌舵的一个活动组织网站,也就是把促成一个聚会活动所需要的三要素便捷地组织起来:人,地点,计划(people,place,plan)。不过,Cener´d特别之处是,在其搜索结果里加入了“语义分析”,号称其结果要比同类网站的“关键词”搜索结果更好。

  Center´d已经积累了100万次的针对活动的搜索,并把这些搜索根据其目的进行分类。为此,Center´d的自主大量的分析发生在网上的关于某个活动的谈话或者讨论,以对这个活动打上“正面”或者“负面”的标签。然后形成数据库,再形成图表。

  Dulski认为,这种基于语义的分析要比普通的关键词搜索更好,因为能够筛除很多不精确的匹配。比如,一个“不适合同性恋的Party”,就不会出现在一个对“同性恋Party”做搜索的结果里。因为Center´d已经通过语义分析知道了,“同性恋”前面的“不合适”就表示一个“负面”评价。

  基于这个数据库,Center´d就能够形成一个针对不同标准的活动指南。比如,在北京的浪漫之旅、廉价旅游四川等等。这些特定标准的搜索结果大部分由数据库自动生成,但也有少量编辑参与其中,以确保质量。

  Dulski说,很多用户来到Center´d时其实脑袋里并没有一个明确的目的,所以诸如“北京的浪漫之旅”或者“儿童们的六一节日”这样的柔性、感性、概念性的东西能够容易激起他们的兴趣,并且一步步诱导他们完成一次活动的准备。看,这个看法跟Google挑歌和有道随心听的逻辑是多么神似。唯一不同的是所针对的对象不一样。

  任何服务或者工具面对的都不是一个对自己需求有明确认识的理性人,而是一个有着一点感觉,但需要被引导的感性人。这无疑是一条正确的发展之路。

  产品改进

  数据挖掘也在帮助产品经理们改善用户体验。在很多大的互联网公司,这实际上成为了辅佐公司战略的数字神经系统。

  互联网公司一般都记录了所有用户在其网站(尤其是网络游戏和社交网络)上的所有点击、行为路径、相应的时间。如果用户尝试一个新产品,用一两秒钟就退出来了,说明这个产品可能有问题,而不是用户不想用;而其中出问题的很可能就在用户的最后一次点击发生的地方。

  比如腾讯就一款网游中的子弹射出后的弹道设置做研究,根据对用户的挖掘数据认为,游戏原本设计的逼真效果对中国用户并不合适,而用户对一种新设计的“比较爽快的、节奏快的、鲜明的”的弹道设计更加兴奋。

  在网游业,数据挖掘的最系统应用就是盛大的“平台”战略。也就是,把任意一款游戏拿到其从2004年就开始建立的一套“评测”体系去走流程,就可以知道这款游戏到底会不会受到玩家的欢迎。其根据,就来自于盛大在过去运营的上百款游戏的用户数据的记录、分析、关联、最后建立模型。基于这套评测流程,盛大就可以对一款新游戏做出判断,到底该不该运营、如何去改进、潜力有多大,都有了一套从数字出发的答案。

0
相关文章