技术开发 频道

SACC搜狐陈义专访:解读机器学习技术

  【IT168 评论】“机器学习”这个词目前并不为人们所熟知,但它其实已经在我们身边存在了很多年。近年炒的相当火热的人工智能,其核心就是机器学习技术,机器学习技术的应用已经遍及了人工智能的各个领域。在日常浏览网页时,很多人都会发现,刚刚在浏览器搜索过的内容,下一秒钟打开微博或其他网页就会见到它出现在随机广告框中,而让广告能这么“聪明”的,就是机器学习技术。

  机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它并非单一的学科,而是交叉覆盖了很多领域,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。那么,机器学习算法应用到了我们生活工作中的哪些地方?它是怎样实现的?应用前景又是什么呢?

SACC搜狐陈义专访:解读机器学习技术

  10月22日,由IT168、ITPUB、ChinaUnix主办的SACC2015第七届中国系统架构师大会已经在北京新云南皇冠假日酒店拉开序幕。大会以“互联网+重塑IT架构”为主题,邀请2500多名IT架构师与工程师来共同交流学习。在大会议程的第二天,搜狐高级技术经理陈义将到场进行“机器学习技术在搜狐广告系统中的应用”的主题演讲,届时陈义将和与会者们交流有关机器学习技术的相关内容。无法到场的小伙伴们也不要急,IT168小编特意在大会前就机器学习技术专访了陈义经理,大会的精彩内容让我们先睹为快!

  陈义在中科院软件所获得博士学位,曾经从事过智能化办公软件和图像处理方面的研发工作,后在亚马逊中国、豆瓣从事个性化系统和广告系统的研发工作。目前在搜狐公司负责精准广告系统研发,以及部分产品的个性化推荐工作。

  机器学习的概念由来已久,但现在人们谈人工智能时,最多提到的内容却是大数据分析,那么这两者间有什么关系呢?可以说,大数据是人工智能的基础,大数据技术解决海量数据的获取、存储和处理问题。机器学习技术可以解决很多海量数据处理需求,而精准广告和个性化推荐是典型的例子。

  机器学习能做什么?

  机器学习技术让计算机拥有了从数据中发现规律和趋势、应对环境变化的能力。机器学习技术在搜狐广告业务中发挥相当广泛的作用,例如通过点击率预测,提高广告业务收益;为提高广告系统易用性,方便广告主下单,广告系统提供了流量预估、出价范围建议等功能;建设用户标签系统,便于广告主选择合适的用户群投放广告。图像处理技术在搜狐视频的广告中也在发挥越来越重要的作用,例如通过图像处理技术,识别视频中的物品或品牌,便于投放上下文相关的广告,还可以在视频中寻找合适的场景,将视频中的物品替换成广告图像,等等。

  陈义在采访中提到:“我觉得机器学习的最大价值是扩展了人类在复杂环境下做预测的能力,比如互联网领域的精准广告或者个性化推荐产品,每天需要面对数以亿级的用户,单纯用人力去解决显然不现实,但有了机器学习技术,这类问题就可以很好地得到解决。”

  机器学习技术成长的阻力

  • 预期偏差过大

  在企业相关业务中,其利益人往往是对技术了解不够高。而算法工程师最常碰到的困难是相关领导或同事常常会高估或者低估机器学习技术的价值。过高的预期会让项目开始前就难逃负面评价的结果,过低的预期又会让机器学习技术丧失发挥作用的机会,所以管理利益相关人的预期,对算法工程师来说非常重要。

  • 部件生生产结果难以达到工程师预期,影响机器学习技术执行

  陈义解释道:“大家,包括算法工程师在内,常常会低估机器学习技术实际发挥作用前所会面临的困难。在一个系统中,算法部件往往处于系统的最顶端,它依赖于系统其它部件的结果,系统任何一个部件未按算法部件的预期产生结果,都可能会严重影响算法效果,所以实际应用中,算法往往是见效最慢的部件。在强调快速迭代的互联网行业里,这常常使得算法工程师地位非常弱势。进而,一个弱势的算法工程师往往很难有影响力让系统每个部件按自己的预期产生结果,所以实际的状况是,虽然很多公司都对机器学习技术投入了很大力量,但结果往往很难达到预期。当然,搜狐在这方面做得是不错的(笑)。”

  大数据相关技术商业化的瓶颈

  在科技如此飞速的今天,技术几乎已经达到了“只有想不到,没有做不到”的境界。然而,尽管现在大数据技术已基本成熟,但其商业化发展并不尽如人意。陈义提到:“我们最常面对的不是技术本身的难点或瓶颈,而是怎么充分利用技术去满足业务目标的挑战。在搜狐这样业务为导向的公司,业务目标多样化,有时无法良好定义,或者很难直接优化。而机器学习模型总是需要一个易于优化的明确目标的,怎么将业务目标转化成技术指标,往往是最头疼的问题。”

  在实际应用中,算法的瓶颈往往在于数据的丰富程度和业务问题本身的优化空间大小。陈义列举了两个相关案例:“数据的丰富程度很大程度上决定了模型的预测能力,比如如果我们有每个用户的性别、年龄、职业等数据,就能更好地估计点击率,如果没有这类数据,广点击率预测的准确程度就会打折扣。另一方面,模型的预测能力强,并不总带来业务指标的改善,比如我们每天只有一个广告可供投放,那不管广告点击率的预测多么准确,我们都还是只能投放这个广告,没法用算法手段提高广告收入,这就是业务问题本身的优化空间的限制。”

  正确应用机器学习技术

  有时候,灵活相当于没有方法。工程师面对一个问题时,可选择的机器学习模型有太多,即使选定了几种方法,每一种方法还会有n多变种,而这很有可能导致设计者自乱了阵脚。陈义对此提出了他的建议:“有经验的中医给病人看病时,都知道辩证施治的道理,不会抱怨验方太多,他们会先根据病人的病情选定基础药方,然后根据病人用药后的反应对药方进行调整,而不是这个药方用两天,没效果就换个药方再试两天。我碰到过很多机器学习的初学者,在遇到问题的时候,会不加思考地尝试各种不同的方法,效果不佳就说这个方法不好,而不是去思考这个方法是不是适用于这个问题,使用这个方法的时候有没有注意根据实际情况做相应的调整。机器学习的算法虽然很多,但大都可以归类到几条主线上去,新方法是在旧方法的基础上改进形成的,弄清楚同旧方法相比,新方法提出的目标是什么,解决的是什么问题,就不会嫌方法多了。”

  陈义还强调:“每项技术都有适合和不适合发挥作用的场景,在面对业务问题时,并不是说我们会机器学习技术,就要把它用上去,而是要看这项技术能否为解决业务问题提供价值,在当前环境下是否有技术可行性。觉得这些问题都是技术选型的问题,和其他技术门类的技术选型方法并无本质不同。”

  总结来说,在商业环境下,以业务为导向,而不是技术为导向,是正确使用机器学习技术的重点。

  最后,在谈到机器学习技术的应用前景时,陈义总结道:“互联网在过去十多年积累了大量用户数据,由于谷歌亚马逊等公司的示范作用,机器学习技术在互联网行业得到非常广泛的应用。但我们应该看到,目前不论是互联网行业本身,还是传统的机器学习应用在互联网行业的普及程度,都已经达到了瓶颈,这对这个领域的技术人员其实是一个很大的挑战。目前O2O、互联网金融等相对较新的领域会有一些机器学习技术的应用空间,但更大的空间,还需要这个领域的技术人员自己去发掘创造。引用Alan Key的话,预测未来的最好办法是创造未来,和大家共勉。”

0
相关文章