技术开发 频道

张溪梦:LinkedIn数据分析里的中国文化

  Teradata在LinkedIn中扮演的角色

  俗话说“不管黑猫白猫,捉到老鼠的就是好猫”。作为一家互联网公司,LinkedIn不仅使用开源产品,也使用闭源产品;不仅自己开发新的功能和服务,也采用商业解决方案。Teradata Aster 和Teradata 企业数据仓库就是其中的两款闭源商业解决方案。

  开源和闭源是一个永恒的话题,张溪梦表示,从技术的角度,开源和闭源之间是有一个平衡的,开源往往都不稳定的,但是速度很快;闭源的相对来说稳定,但反应速度比较慢。R和SAS很好的地说明了开源和闭源的关系:R功能非常多,速度也很快,但是并不稳定;SAS非常稳定,但由于价格问题,只有大企业才能买得起。

  现在在硅谷里面,渐渐从闭源移到开源。这不是技术的问题,而是人的问题。闭源软件的使用者往往都是在行业里摸爬滚打了数十年的人,开源往往都是年轻人在用。就像中国历史里面,秦王嬴政召集帮他打天下的人都是年轻人,相对来说年轻人更容易接受新的技术。这是人和技术之间交互的过程。

  据张溪梦介绍,“你可能认识的人”最早是基于传统关系型数据库,计算一次需要几天到一个星期,后来用Teradata Aster来换算整个数据流,处理时间缩短至几个小时以内,速度提升了几十倍。Teradata数据仓库在LinkedIn内部来说,主要用于开发商业智能。

  在使用Teradata之前,LinkedIn做了很多服务,包括内部开发数据库、内部开发新类型的数据。LinkedIn内部大概有25种不同的数据库和数据解决方案,其中一半以上是LinkedIn内部开发的。LinkedIn以前的分析结构是一个“金字塔”,基础是公司的业务数据,数据之上又分为分析层、报表层、深度分析层、战略分析层和决策层等。金字塔最精华的部分就是塔尖,底层既花时间又没有太大价值。于是LinkedIn用技术把底做小,分析结构就由“金字塔”变为“菱形”,数据量减少至原来的1/2。这样做不仅降低了存储成本,还为数据分析提升了速度。

  LinkedIn认为如果有哪个厂家做得好,LinkedIn就直接拿来用,最关键的一点是快。但是,市场上没有的东西,就需要内部开发;市场里有的,像Teradata做企业数据仓库很多年了,是市场里最成熟、最稳定、速度最快的产品,LinkedIn就直接采用了。实际上,LinkedIn已经采用Teradata两年了,但之前的选型就花了六个月的时间,从大量候选产品中选中Teradata。

  因此,开源有开源的作用,闭源有闭源的好处,如何能够最好的实现商业目的才是最重要的,不一定非得开源或者闭源。

0
相关文章