技术开发 频道

第四范式程晓澄: 推荐系统的架构演进

  【IT168 专场报道】SACC2017于10月21日圆满落下帷幕。本届大会共设置2大主会场,18个技术专场;邀请来自互联网、金融、制造业、电商等多个领域,100余位技术专家及行业领袖来分享他们的经验。在10月21日的搜索及推荐系统架构设计专场中,来自第四范式的推荐服务算法负责人程晓澄为我们带来了主题为《推荐系统的架构演进》的演讲。

  程晓澄今天的演讲内容主要为简述工业实践中对推荐系统产品上、性能上、算法上的要求,通过分享一些推荐系统架构,举例说明如何较好的解耦实现上述需求,使系统易于维护和扩展,从而使推荐系统更好的服务企业需求。大体分为三个方向:推荐系统的诞生土壤和早起演进、推荐系统当下的基本架构、推荐系统的搭建

  推荐系统的诞生土壤和早起演进

  在这一部分内容的开始,程晓澄首先介绍了一下推荐系统最早期的发展。上世纪90年代—21世纪初,关于推荐系统的几个大事件:1995年亚马逊成立网上书店;1998年Google成立,相当于革新了搜索引擎,从以前目录检索式的网站到用户可以随意搜索;2004年,《长尾理论》这本书问世,书中描述了一个长尾概念,简单来说这个概念就是,如果把世界上的文化产品或者商品做受众统计,可能头部是非常庞大的,但尾部也会非常长,虽然尾部受众人群少,但是这个尾部的所有受众人群加起来也是一个非常庞大的群体,甚至可能会超过头部人群。

  推荐系统当下的基本架构

  推荐系统的典型架构大致是三块:召回、排序、生成推荐列表。

  召回:推荐系统的典型架构设计的第一步是如何来做初步筛选。这需要尽量用一个效率高的方式来进行初筛,而最简单的方式是排序召回,召回比较新的比较热的内容,离这个用户比较近的内容。这样可以应用信息比较少的一些简单模型,如前面说过的协同过滤或其他计算复杂度低的模型。这样以来它的没有线上排序模型那么大,但是计算效率比较高、便于离线计算。

  排序:在排序这个阶段需要考虑更多的因素。比如秋天到了,是不是该推荐更多的应季的商品;用户现在用的是4G网,是不是有可能更爱看短的文本内容;用户在APP上很活跃,有很多行为序列,那他的这些序列是不是会有一个兴趣的迁移,或者这些社交关系能不能带来什么支持等。

  值得一提的是,现在比较前沿的排序模型是wide&deep models,它是同时结合了宽跟深的一种方式。大量特征通过宽的方式可以注入到这个模型中,但目前还存在的一些问题是有些信息很难提取。

  生成推荐列表:作为推荐系统希望结果尽量多样化。从体验上来讲,是需要权衡、着重挖掘,根据现在已知到的用户喜欢的内容不断去展现,还是要考虑到给用户展现不同内容,来收集他其他的领域的一些偏好也是个值得考虑的问题。虽然有些用户不喜欢推荐的内容,但其实也有可能会有一定的收获。所以之后的推荐选择面会更广,用户体验也会更好。

  推荐系统的搭建

  一个推荐系统的搭建主要包括以下几个方面:线上请求、线下数据流闭环、数据分析和算法实验。

  关于线上请求:

  线下数据流闭环:

  数据分析和算法实验:整个系统需要能够快速迭代,快速回应产品和性能上算法上要求,需要更多的进步和进化。

  最后程晓澄提到作为技术开发人员哪怕想得再精确、目标再对,如果走得非常慢也会被别人进步的步伐甩开,架构也是同样的道理。如果产品的需求来了,就需要非常快地从推荐结果中显示出来。如果模型更新没有这么快的话,能不能用其他的策略或者通过其他的规则显示出来。以及模型需要更新,尽量做更多的实验,去收集这个数据,然后才能做出更好的选择。


更多信息尽在IT168专题报道


0
相关文章