技术开发 频道

张溪梦:LinkedIn数据分析里的中国文化

        【IT168 专稿】“中国历史上第一个分析师是姜子牙,他是第一个做分析和策略的人。在中国历史上,炎黄五帝、司马懿、房玄龄等都是做分析的。分析就是谋略和决断,从古至今都是重要的。”知名社交网络LinkedIn商务分析部总监张溪梦如是说。这位曾经的神经外科医生将中国文化融入数据分析,甚至工作生活的方方面面。近日,在“2013 Teradata大数据峰会”上,记者采访了张溪梦,他分享了LinkedIn的商业模式、数据分析实践,以及其中蕴含的中国文化。

  LinkedIn是全球最大的职业社交网络媒体,截止到2013年初在全球范围内拥有2亿用户,平均每两秒就会增加一个新用户。85%的“财富100强”企业在LinkedIn上投入大量资金进行市场推广,有270万个企业在LinkedIn上建有官方主页,每年约有几十亿次关于人和企业的搜索。到目前为止,LinkedIn有3500名员工,张溪梦所在的团队有55-60人,直接支持2700-3000名内部员工,包括产品、市场推广、运营、研发等。

张溪梦:LinkedIn数据分析里的中国文化
▲LinkedIn商务分析部总监张溪梦

  LinkedIn如何盈利?“成功在于联系”

  很多人认为LinkedIn就是一个找工作的平台,实际上根据内部数据来看,只有20%的人在找工作,而另外80%的LinkedIn用户主要是和其他的专业公司建立关系。用中国俗话说就是“成功在于联系”,实际上LinkedIn的宗旨就是建立在此基础之上的,它的核心任务是连接世界上所有的专业人士,让他们变得更有效率、更成功。

  LinkedIn是利用数据产生价值的,其整个产品的设计,基本上都是从数据里分析出来的。LinkedIn会员的成长,会产生很多数据,从数据里面又产生很多有价值的新产品,这些新的产品再一次刺激业务的成长,增加用户的黏度。比如“您可能认识人”,以及“您会感兴趣的工作、您会认识的人、你可能会喜欢看的……”都是从数据而来,都是通过数据来发现相关性。

  人们常说“授之以鱼,不如授之以渔”,但在LinkedIn看来正好相反,即“授之以渔,不如授之以鱼”。LinkedIn拥有多年的数据分析经验,并将数据分析过程透明化,客户不需了解技术细节,直接看到分析结果。张溪梦表示,LinkedIn并不希望所有员工都成为数据分析师。

  据张溪梦介绍,LinkedIn有三大块业务,第一块是人力业务,约占53%。第二块是市场推广,即广告业务,约占27%。第三块是高级订阅服务,和LinkedIn的会员有关,约占20%。

  LinkedIn最核心的业务叫猎头,这个产品约占LinkedIn总业务量的40%-50%左右,是纯数据的,目的是帮助公司找到最优秀的人。在LinkedIn内部有一个说法,一个公司未来的成功完全建立在人的基础上,而不是建立在硬件或技术的基础上。总的来说,LinkedIn用数据分析人,让这些人更成功。

  LinkedIn的宗旨是“会员第一(member first)”,无论做什么事,首先考虑会员的利益。会员的隐私有两个方面,一方面是产品本身,通过产品能够知道谁在里面;另外一个是数据本身的隐私,LinkedIn在隐私方面加大投入,基本上能加密的都会加密,甚至包括其他公司不会加密的Hadoop和移动终端。如果涉及到任何一个会员的隐私,LinkedIn都是把会员的利益放在首位的,而不是把商业利益放在第一。

  Teradata在LinkedIn中扮演的角色

  俗话说“不管黑猫白猫,捉到老鼠的就是好猫”。作为一家互联网公司,LinkedIn不仅使用开源产品,也使用闭源产品;不仅自己开发新的功能和服务,也采用商业解决方案。Teradata Aster 和Teradata 企业数据仓库就是其中的两款闭源商业解决方案。

  开源和闭源是一个永恒的话题,张溪梦表示,从技术的角度,开源和闭源之间是有一个平衡的,开源往往都不稳定的,但是速度很快;闭源的相对来说稳定,但反应速度比较慢。R和SAS很好的地说明了开源和闭源的关系:R功能非常多,速度也很快,但是并不稳定;SAS非常稳定,但由于价格问题,只有大企业才能买得起。

  现在在硅谷里面,渐渐从闭源移到开源。这不是技术的问题,而是人的问题。闭源软件的使用者往往都是在行业里摸爬滚打了数十年的人,开源往往都是年轻人在用。就像中国历史里面,秦王嬴政召集帮他打天下的人都是年轻人,相对来说年轻人更容易接受新的技术。这是人和技术之间交互的过程。

  据张溪梦介绍,“你可能认识的人”最早是基于传统关系型数据库,计算一次需要几天到一个星期,后来用Teradata Aster来换算整个数据流,处理时间缩短至几个小时以内,速度提升了几十倍。Teradata数据仓库在LinkedIn内部来说,主要用于开发商业智能。

  在使用Teradata之前,LinkedIn做了很多服务,包括内部开发数据库、内部开发新类型的数据。LinkedIn内部大概有25种不同的数据库和数据解决方案,其中一半以上是LinkedIn内部开发的。LinkedIn以前的分析结构是一个“金字塔”,基础是公司的业务数据,数据之上又分为分析层、报表层、深度分析层、战略分析层和决策层等。金字塔最精华的部分就是塔尖,底层既花时间又没有太大价值。于是LinkedIn用技术把底做小,分析结构就由“金字塔”变为“菱形”,数据量减少至原来的1/2。这样做不仅降低了存储成本,还为数据分析提升了速度。

  LinkedIn认为如果有哪个厂家做得好,LinkedIn就直接拿来用,最关键的一点是快。但是,市场上没有的东西,就需要内部开发;市场里有的,像Teradata做企业数据仓库很多年了,是市场里最成熟、最稳定、速度最快的产品,LinkedIn就直接采用了。实际上,LinkedIn已经采用Teradata两年了,但之前的选型就花了六个月的时间,从大量候选产品中选中Teradata。

  因此,开源有开源的作用,闭源有闭源的好处,如何能够最好的实现商业目的才是最重要的,不一定非得开源或者闭源。

0
相关文章