技术开发 频道

直击DTCC2019现场:数据库智能化运维探索与实践

  【IT168资讯】5月10日,第十届中国数据库技术大会(DTCC2019)正在火热进行中。作为本届大会讨论的焦点之一,“数据库智能运维”专场人气爆棚,来自京东物流、腾讯、字节跳动、京东商城、便利峰的行业专家出席现场,他们就数据库自动化运维、异地容灾系统等热点话题作出经验分享。

  京东物流超大规模仓储系统数据库集群大促保障秘诀

  京东物流极速的购物体验中,仓储和配送时效是最为关键的一环。在电商行业中,京东物流拥有超强仓储管理系统(简称WMS系统),涵盖了从在库、入库、出库等环节,特别是在电商行业中独有的超大规模仓储系统集群,在其中起到了决定性的作用。

  ▲京东物流资深DBA高文佳

  高文佳对WMS系统做了详细介绍,并针对数据库运维提出了六点建议:敬畏生产环境,心存敬畏,方能行有所止;规范流程操作,拒绝人情“事故”;定期故障演练,做好紧急预案;高危操作+双人确认,减少误操作;主动运维+自动运维,避免紧急救火;开展培训+积极沟通,将风险截留在开发阶段。

  TDSQL智能运维平台—扁鹊架构与实践

  作为一款金融级数据库,TDSQL具备六大核心特性,包括数据强一致性、金融级高可用、高性能低成本、企业级安全性、线性水平扩展、智能化运维。TDSQL通过提供“赤兔”自助运营和“扁鹊”智能DBA彻底规避人为误操作带来的安全隐患。

  ▲腾讯金融云T4专家雷海林

  “赤兔”自助运营服务,可以从管理员视角,在可用性、安全、效率、成本维度进行全方位管控,90%的日常运营操作均可以通过Web页面完成,减少人为差错同时帮助金融用户节约管理及经济成本、降低风险。

  雷海林介绍道,“扁鹊”智能DBA则具备故障预警、故障自动诊断、历史事件剖析、优化建议、操作通过管理台自助化、降低DBA工作强度等特性,帮助金融用户防范系统异常。

  Canal的自动化运维以及异地容灾系统实践

  传统数据库的运维方式,很难满足大数据场景下的稳定性和高效性。Canal作为中间件解决了MySQL Binlog的获取,将Binlog保存到消息队列中,后续接流式计算框架,或者离线计算框架。

  对此,字节跳动对 Canal的智能化运维,自动感知数据库的变更和主动适配,并提出多机房部署及异地容灾解决方案,实现了多机房 Canal 实例的统一智能管理。李畅表示,“我们采用Manager Mode架构,要求保证数据一致性、准确性,服务的稳定性,做离线数仓建设和在线实时同步。”

  ▲字节跳动高级大数据平台工程师李畅

  对于未来的发展规划,李畅透露,“我们希望在稳定性方面,支持实例自动Rebalance,避免单机负载过高;在运维方面,支持实例配置运维中心,实例流量智能监控及预警。”

  机器学习在数据库运维上的应用

  传统数据库运维方式具有许多局限性,被动优化(监控/报警/慢SQL/应用报错等);耗时耗力且低效,较难形成闭环;受限于人的局限性,复杂场景缺乏扩展性;决策过程中数据价值缺失,决策标准主观性较大;DBA专家紧缺与数据库服务要求之间的矛盾更加突出等。

  如何做到能够让资源精准分配,并做到提前防范?基于机器学习的京东智能运维平台SmartDBS系统在逐步化解这些难题。该系统包含分类、预测、诊断、决策和调度5大模块。分类、预测、诊断的数据最终进入决策模块参与容器资源分配的决策,并推送进入调度实现资源的重新合理分配。

  ▲京东商城开发工程师彭安

  彭安表示,“SmartDBS的价值在于专家系统、智能诊断和预测分析三个方面。其中专家决策,降本提效,可免去人员维护的主观性;多维数据建模分析全面诊断数据库;单指标特征预测多模型数据校验分析。”

  便利蜂数据库运维自动化从0到1演进之路

  便利峰数据库管理平台包含备份系统、慢查询系统、在线变更系统、在线查询系统、MySQL高可用系统等。其中包含需求申请、SQL操作、集群管理、容量管理、日志查询、慢查询管理、服务治理、数据库管理、备份管理、Redis管理平台、集群监控、OPS管理平台、Beta管理、平台周报等功能。

  ▲便利蜂DBA陈海峰

  关于便利峰SQL变更系统的发展历程,陈海峰透露主要有“萌芽期、突破期和迭代期”三个阶段,“首先,我们做的工作主要是流程规范、备份监控、慢查询系统。然后,SQL变更、SQL查询、数据库高可用的研发;从18年10月份至今,我们开始部署扩容集群,进行服务治理和容量管理。”

  数据库运维自动化来源于工作中的痛点,而这种压力推动了技术的不断变革。通过上述五位行业专家的分享,我们可以从更多角度来思考数据库的智能运维。未来,将是自动化和智能化数据库运维的时代。

1
相关文章