技术开发 频道

DevOps升级&AIOps落地,看看这些大厂都是怎么做的?

  【IT168 评论】现有应用场景的不断变化使得技术的更迭越来越快,不久之前,人们还在科普DevOps是什么,但是如今DevOps已有英雄迟暮、日薄西山的迹象,AIOps正以蓬勃之势迈入大众视野。如何才能从DevOps走向AIOps?也许,这篇文章可以给你答案!

  2018年10月17日—19日在北京海淀永泰福朋喜来登酒店举行的第十届中国系统架构师大会,专门设置了《基础架构运维:从DevOps到AIOps》专场演讲。该专场分为上午和下午共两场演讲,本文,我们先来看看上午场中的宜信、京东数科、阿里巴巴、去哪儿网,他们都是如何实践的?

  谢知求:宜信全维度监控与应用运维平台及开源赋能

  宜信技术研发中心自主研发了一套智能化服务技术栈——UAVStack。为什么会取名叫UAV呢?宜信技术研发中心架构师谢知求解释说,UAV是无人机的缩写,寓意无人机翱翔蓝天,智能的、透明的完成任务。

  据悉,UAVStack的设计思想采用了“微智能”,功能包括全维监控(UAV.Monitor),应用性能管理(UAV.APM),用户体验管理(UAV.UEM),容器化支持(UAV.Container) ,服务治(UAV.ServiceGovern),任务机器人(HIT)等。

  针对智能运维AIOps,谢知求表示可以分为3步走,全维监控、全维关联和全维智能。

  第一步全维监控,通过统一采集体系,完成指标(Metrics)、调用链(Tracing)、日志(Logging)这三大类监控数据的采集,保证了数据的时效、对齐和品控。

  第二步全维关联,全维关联通过采集系统、应用和服务的现实描述以及它们的关联关系,结合知识图谱技术,实现系统对现实的增强感知,这种数据也叫画像数据(Profiling),进而利用画像数据实现对指标、调用链、日志等监控数据的实时关联。

  第三步全维智能,引入智能任务机器人,用机器取代人去做决策。在这一阶段,一方面通过对接大数据平台实现对机器学习模型的训练,同时将知识图谱和机器学习模型转化成可插拔式的服务,以实现对任务机器人“决策能力”的持续交付。

  董璐:京东数科DevOps落地攻略

  杰克· 韦尔奇曾说过,“如果外界的变化率超过了内部的变化率,那末日就不远了。”也正是受此启发,京东数科开始推进DevOps。京东数科持续集成平台研发负责人董璐表示,通过推进DevOps,他们想要达到减、加、降、升的效果。

  其中,“减”指的是减少沟通成本,落实文字,在线管理;“加”指的是增加质量把控

  除QA外,增加单元测试、代码扫描等;“降”指的是降低研发风险,制定规则,验证、告警;“升”指的是提升自动化水平,包括构建、校验、扫描、采集、统计等操作。

  京东数科DevOps的演变落地共经历了三个阶段,分别是工具化、平台化和一体化。工具化阶段,让复杂又重复的工作变得简单;平台化阶段,将工具组装到一起,变的更强大;一体化阶段,把各个部件组合到一体,协作起来。对于下一步的发展目标,董璐也给出了明确的答案那就是生态化,内聚力量,外联资源,多点赋能。

  柯旻:阿里巴巴大数据智能运维实践

  如果要论互联网公司的技术实力,那么阿里就不得不提。随着公司的不断发展,规模的飞速增长,阿里运维体系也在不断演进变化。

  运维1.0时代是组件监控模式,通过脚本代替手工运维模式;运维2.0时代是流程化运维模式,通过标准化规范化,把组件监控与运维流程相结合,批量自动化运维;运维3.0时代是平台化运维模式,进一步固化运维常见场景,实现一体化监控,提升端到端运维能力,对运维服务集中化管理。运维4.0时代是智能、数据化运维模式,高度自动化,精细化,精准化,通过大数据机器学习等技术以提供智能分析决策,运维能力服务化。

  在从DevOps走向AIOps的过程中,必须还要经历一个DataOps的阶段。在大会上,阿里巴巴大数据资深技术专家柯旻向我们展示了数据化运维的相关案例,例如全链路分析诊断、硬件自愈、聚类异常检测、聚类寻优、运筹优化。

  肖双:百万级报警平台的架构设计与实现

  监控是每个公司基础架构中不可缺少的一部分,如何构建适用于公司不同阶段不同需求的监控系统需要技术团队不停的探索和尝试。在这个主题中,去哪儿网高级运维开发肖双以去哪儿网百万级监控报警设计与实现为核心,和我们分享了他们Ops团队在建设监控系统期间遇到的问题和解决的方法。

  2014年的时候, 去哪儿网开始自主调研开发适合自己的监控系统,并逐渐研发成功,成为了现在使用的watcher。Watcher 是基于开源项目Graphite+Grafana深度开发, 支持主机基础监控报警和业务监控报警,提供统一的管理展示界面,报警监控都可以在统一的界面上查看和配置。

  目前watcher在去哪儿网应用量级大概是监控的应用有1500+,指标量四千万+,每周的报警量百万+。相比于之前的监控系统来说,watcher具备以下特点:用户可以自定义报警以及自定义个性化报警;自定义报警级别,还有值班排班,当前我们规定了P1-P4 四种级别;树形结构的指标和视图展示,一个目录树结构对于组织架构和对指标和视图上的管理都是非常清晰和方便的;横向扩展能力强,数据高可用。

  想要第一时间了解大会更多精彩信息,欢迎访问大会专题: http://zt.it168.com/topic/sacc2018/

1
相关文章