技术开发 频道

SACC2017:美团外卖自动化业务运维系统建设

  【IT168 评论】90后专栏作家李宫俊曾写过这样一句话“生我者父母,养我者父母,”这从某个角度反映了外卖已经成为了我们日常生活中的重要组成部分。美团外卖作为国内在线商品交易与及时送达的重要O2O电商交易平台,其业务运维的经验极具参考价值。

美团外卖自动化业务运维系统建设
美团外卖业务架构组负责人 刘宏伟

  2017年10月19日-21日,由IT 168主办的第九届系统架构师大会在北京新云南皇冠假日酒店盛大开幕,“智能化运维&DevOps”技术专场中来自美团外卖业务架构组负责人刘宏伟,为我们分享了美团外卖自动化业务运维系统的建设。

  流程复杂、流量陡增、业务迅猛是美团外卖的三大特点

  外卖业务的流程十分复杂,从用户下单、商家接单、骑手接单、发配送、用户收到热乎乎的外卖,这一系列流程需要在20多分钟之内完成。而且其后台服务交互也十分复杂,整个产品线上涉及很多数据分析,统计,结算,合同等各个端的交互,一致性要求高,并发高。

  外卖业务每天10点开始开始陡增,在11:30左右达到午高峰,在这短短的90分钟内流量会陡增5倍多,而且这个流量陡增是周期性变化的,每天都会重演一次。

美团外卖自动化业务运维系统建设

  除此之外,美团外卖的另一个特点就是业务增长十分迅猛,2013年上线到现在,只用了不到四年时间,其日提单就从0暴涨到2000万,日完成订单1600万。刘宏伟表示,其业务产品一直处在高速迭代,某个数据访问服务组日均120亿+访问, qps 近40万了,午高峰只要发生一个小小的事故,就会引起比较大的损失。

  业务发展倒逼技术进步,美团外卖运维工作的新挑战

  基于以上发展特点,刘宏伟表示美团外卖业务运维工作存在以下挑战:各种维度的事件通知、报警充斥着开发人员的IM,需要耗费很多精力去优化配置报警阈值、报警等级才不会出现很多误报;公司有多套监控系统,但是它们之间没有关联性,开发人员在排查问题时需要带着参数在不同的系统之间切换;代码中会有大量的降级限流开关,但随着产品快速的迭代,无法确定这些开关是否还有效。

  运维人员在日常工作中的排查经验完全实现流程标准化,并在进一步实现计算机自动化。在问题的定位和诊断越来越准确时,可以进一步减少人为干预,实现问题排查流程智能化,真正将人从日常运维工作中解放出来。

美团外卖自动化业务运维系统建设

  积基树本,美团外卖的重点系统体系建设

  任何一件事情的完成都不是一蹴而就的,而是循序渐进、不断演变的,美团外卖自动化业务运维系统的建设也不例外。据刘宏伟介绍目前美团外卖的重点系统体系建设包括体系架构、业务大盘、核心链路、服务保护&故障演练和整合全链路压测。

美团外卖自动化业务运维系统建设
▲体系架构

  在整个自动化业务运维系统中,业务大盘与核心链路作为用户使用的入口,分析核心链路上服务状态,定位最终的问题节点,并触发服务保护预案。除此之外,还要定期通过全链路压测来不断验证问题诊断。

美团外卖自动化业务运维系统建设
▲核心链路

  核心链路是系统主要的使用入口,用户可以通过核心链路快速定位是哪一个调用链出现问题。

美团外卖自动化业务运维系统建设
服务保护&故障演练模块

  服务保护&故障演练模块是让业务运维体系形成闭环的重要部分。针对不同的保护需求会有不同类型的服务保护开关,例如降级开关、限流开关等等。

美团外卖自动化业务运维系统建设
全链路压测

  美团外卖会定期进行全链路压测,针对压测流量进行不同场景的故障演练,在制造故障的同时,验证服务保护预案是否可以像预期那样启动保护服务。

美团外卖自动化业务运维系统建设
更多精彩尽在IT168专题报道


0
相关文章