技术开发 频道

SACC 2016:Intel王华峰的面壁与破壁

  【IT168 评论】“面壁十年图破壁,难酬蹈海亦英雄”,周恩来总理在为革命事业奋斗时发出的感慨至今仍在激励着一代又一代的中国人。现如今,云物大智强势入主人们的日常生活,IT行业迎来了新的变革浪潮,如何静心苦思、变革求存成为我们不得不面临的难题。今天我们就采访到了Intel大数据部门资深工程师王华峰和我们分享他的面壁破壁之路。

SACC 2016 Intel王华峰的面壁与破壁
▲Intel资深工程师 王华峰

  大数据风云变幻,要时刻保持警醒

  王华峰目前任职于英特尔亚太研发中心大数据部门,主攻大数据和分布式计算,专注于流处理系统的开发和研究,同时也是英特尔自研的开源流处理系统Apache Gearpump(Incubating)的开发者。

  在谈到自己的职业经历时,王华峰谦虚的表示自己对“资深工程师”难承其重,只是很有幸从一入行就接触到了整个大数据行业。王华峰13年入行开始接触大数据,那时Hadoop 1.0风头犹劲,Hadoop2.0起步伊始,而Spark也开始慢慢进入人们的视线,正是霸主未成、群雄逐鹿的时代。也是在这时Intel与AMP Lab,也就是Spark团队有了深度合作,从MapReduce到Spark,从批处理到流处理的一路走来,王华峰目睹了很多大数据开源项目的兴起、发展与沉寂,这也让他深深的意识到浪潮随时会过去,要时刻保持警醒。

  关于流式数据的几点思考

  目前流处理框架种类繁多,但是还没有执牛耳者,每个框架都有各自的优势,在选择时需要考虑的因素也会很多,王华峰认为选择时最重要的是要从实际需求出发。

  首先关于性能,如果对应用计算的延迟要求不是特别高,容忍秒级以上的延迟,那么Spark Streaming将是一个不错的选择,反之若希望整个系统的计算延迟达到控制在毫秒级别,这时候就需要在Storm, Flink, Gearpump或其他框架中选择,Spark Streaming已无法胜任。

  从业务角度出发,若对应用消息有不丢不重的要求,即保证Exactly-once的语义,则暂时只能从Spark Streaming,Flink或者Gearpump中选择,Storm只能保证At-least-once的语义;又或者需要丰富的窗口语义支持,那么Flink则相较于其他框架更有优势一点。

  从系统的易用性出发,需要诸如机器学习,图计算或SQL的支持,拥有比较完善的生态的Spark和Flink都是比较好的选择,Storm在这方面则稍显劣势。

  在谈到流式计算给技术人员带来的挑战时,王华峰认为最大的难题就是系统的容错。

  像MapReduce这种批处理引擎的容错机制,一旦出错可以重启整个作业,直到成功为止。但是流式计算并不是这样,在典型的流式计算中,实时数据在各个计算节点间流动,永不终止,如果某个计算节点发生故障,比如消息丢失,就需要重新获取丢失的消息。典型的做法就是消息重放:让其依赖的上游节点重发数据,而上游的节点又依赖它自己的上游节点,如此追溯至数据源头,牵一发而动全身,整个应用都受到了影响。之后可能就会涉及到很多问题,消息从什么时候重放,如何恢复之前的计算状态,重放的时候如何保证消息不被重复计算,保证最终结果的正确性等等。

  架构的创新和完美皆要从需求出发

  一个完美的架构应该具有哪些特性呢?王华峰认为完美的架构可以有很多特点,高性能,高可用,延展性好等等不一而足,但是它们有一个共通点,肯定都是需求的真实反映。

  架构的设计过程其实就是一个权衡妥协的过程。架构有很多特性,但是真正实现一个架构并不能完全满足所有的特性,肯定是有舍有得,比如为了性能可能就要牺牲一致性。所以如果在设计之初没有深入分析需求,了解各个特性的优先级,往往难以得到好的架构。

  现在是云和大数据的时代,毫无疑问云平台架构已经成为人们关注的热点。

  亚马逊在2008年的时候发布过名为Cloud Architect的白皮书,其中谈到架构最核心的一点就是,对运行在云平台上的应用软件实现资源、服务的按需分配,让整个应用能够伸缩自如。今年2月份,Netflix官方宣称关闭了其最后一个数据中心,也意味着所有服务向云端的迁移已经完成,整个迁移过程耗时7年之久。王华峰认为虽然现在仍属于传统架构向云平台架构转型的过渡期,但是“云才是未来”这一点毋庸置疑,随着Docker,Kubernetes的愈发成熟,云平台的基础设施将会趋于完善,上层应用就可以将注意力进一步集中在业务实现上了。

  10月27日,第八届系统架构师大会将会如约和大家见面。对于此次大会“架构创新之路”的主题,王华峰表示了强烈的赞同,他认为任何架构都不能包治百病,而且现在整个行业已经进入了以云计算、大数据、物联网、深度学习为主要趋势的发展阶段,这时候很多传统企业要实现快速转型,理念、架构的不断演进与创新则显得尤为重要。

  SACC 2016 Intel王华峰的面壁与破壁

  本届系统架构师大会将安排两大主场和24个专场。届时,来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域的150多位技术专家将汇聚一堂,共同探讨云计算和大数据时代下,如何通过架构创新来实现企业的快速转型。

0
相关文章