技术开发 频道

京东朱健对大数据热点问题的见解

  【IT168 评论】京东是一家不断带给我们奇迹的上市公司,凭借着“甘蔗理论”和打拼精神,二十年来攻城略地,逐渐成长为电商领域的佼佼者。2016年全年净收入达2602亿元人民币,同比增长44%,扭亏为盈,增长速度超越华尔街预期。

京东朱健对大数据热点问题的见解

  近年来,双十一成为了电商领域一年一度的购物狂欢节,有数据显示,截至2016年11月11日早间6点数据更新,京东双11全天成交额达111亿元,占全网总销售额的16.4%。面对如此巨大的用户流量,京东的广告系统如何在保证广告高曝光的前提下,实现低延迟呢?本期访谈对象是京东广告部的一线技术人——朱健,他将跟我们聊聊京东广告系统的数据库选型和对应的业务场景,以及他对大数据领域众多热点问题的看法。

京东朱健对大数据热点问题的见解
京东 朱健

  朱健,毕业之后就进入了雅虎北京全球研发中心,开始做广告流量反作弊相关的工作,从那时开始接触大数据生态,并参与部分BI工作。15年来到京东广告部,参与广告部反作弊系统、广告日志系统、实时统计和BI相关的工作,目前任职大数据处理高级工程师。

  京东广告系统的数据库选型

  面对广告数以十万计的曝光流量,一个高吞吐量、低延迟的数据库才能满足实时统计广告指标的需求。京东的广告实时效果系统使用了Redis、Hbase和Mysql。Redis和Hbase性能出色,但Hbase不支持累加,京东的做法则是将变动的数据存放在Redis中,历史数据转储到Hbase中。由于K-V系统存在维度爆炸问题,对于数据量不大但维度组合变化多的实时指标统计,京东的部分业务线采用了Mysql。

  在离线OLAP系统中,京东使用过Hive和Greenplum。朱健说道,其实,HIVE不算真正的数据库,是MapReduce+HDFS的抽象,非常稳定可以处理超大规模数据。京东曾使用Hive来构建日报系统,但其最大的缺点就是速度慢。为了构建低延时的OLAP,满足广告指标实时查询的目的,京东引入了Greenplum。目前来看,Greenplum比较适合中等规模的数据量(百T级别)。

  热点问题一:对象存储有望替代分布式文件系统?

  据外媒预测,对象存储今年有望取代以Hadoop的HDFS为代表的分布式存储系统,这在业界引起了广泛讨论。朱健认为,众多大数据技术中,没有任何一种是十全十美的,很多技术都是为了解决特定问题而出现的。如果确实能够满足业务需求和未来的发展需要,即便是早期技术也推荐使用(因为比较成熟)。

  对朱健个人而言,HDFS目前仍然是首选的分布式文件系统,可以满足大部分业务需求,具有高吞吐、高容量、稳定、简单、廉价、生态丰富等特点。一般而言,如果涉及到大数据处理,HDFS可能是非常好的选择;对于线上服务、海量小文件等场景,优先考虑对象存储。本质上,对象存储在性能、容量上与HDFS类似,两者只是结构上的差别,可以一一对应的把HDFS文件映射到对象存储中,唯一需要注意的是对象存储一般无法存放大文件,需要进行分割。

  热点问题二:国内自助式BI分析的脚步是否可以与国际同步?

  目前,国内自助式BI分析的脚步还远落后于国外,而在这一点上,京东似乎已经成为了先行军。朱健表示,由于互联网快速变化的特点,旧的分析方式显然已经不适合互联网的发展了。京东很早就开始做自助式BI分析方面的工作,快速BI工具的出现是必然趋势,自助式BI分析的流行也会紧随其后。朱健认为,自助式BI分析肯定会成为大公司BI分析的主流,预计1年内很多BI分析都会变成自助式。

  目前业界有很多快速OLAP分析工具,技术上并没有特别大的难题,但搭建一个好的自助式BI分析平台并推广出去还是很有挑战的。朱健表示,一方面在技术上,需要从数据、操作方法、图表展示等层面提供丰富的表达能力;另一方面需要让分析师接受、理解并用好新方法;除此之外,还要具备良好的升级能力,满足未来业务的发展需求。

  热点问题三:组建一支大数据团队需要15人、一千万?

  电商领域,组建一个大数据团队要投入多少成本呢?朱健提出,对于一个中等业务规模的公司,大数据团队至少需要配置15人,3人负责平台建设和运维,3人负责数据导入和数据清洗,6人负责数据计算,加上3个技术经理。这15个人的团队成长起来至少需要半年时间,投入差不多一千万。

  写在最后

  当今互联网早已不是蛮荒生长的时代,各大公司也在自己的领域深耕细作,伴随着市场的成熟,如何提供更好的服务、更快的数据决策,成为竞争的关键点。本届DTCC大会,朱健将会带来《大数据实时处理架构实践》的分享,实时计算技术作为其中的一项关键技术,开始在业界广泛流行。如何依据自己的业务,在众多实时计算技术中做出选择,如何处理实时计算中遇到的各种问题,保证数据的效率和正确,成为所有人都要面对的极具挑战的工作。届时,朱健将会结合个人多年的从业经验,分享他对这些问题的见解。

0
相关文章