【IT168 评论】去年底,百度外卖CEO巩振兵提出了外卖O2O“2.0时代”的概念,从分散的餐厅自主送餐到各大互联网巨头杀入外卖市场,短短几年时间,外卖行业就从一个难成规模的市场转变成为高达数百亿规模的产业。在经历了疯狂烧钱、跑马圈地的外卖1.0时代后,进入到外卖2.0时代后,各大巨头凭借哪些优势才能脱颖而出?
外卖2.0时代,不仅要拼数据,还要拼智能运维
百度外卖到底是一家什么样的公司?“百度外卖并不仅仅是一家送外卖的公司,它首先是一家大数据公司。”巩振兵如此定位。
百度外卖作为一家技术驱动型的公司,将百度多年来累积的技术优势也运用在了外卖业务上。首先,百度外卖基于百度大数据进行人群属性细分,继而进行精准化营销和推荐;其次,百度外卖还依托百度系产品为线上商户导流;最后,百度外卖应用中也引入了人工智能、机器学习等前沿技术。
其实现在有很多企业和百度外卖一样是强依赖于数据库的,但企业的DBA有时只有研发人员的几十分之一,很难深入理解业务,所以经常会出现这样的情况,只有线上业务发生重大故障之后,企业才能被动发现错误。为了把DBA从繁杂的故障和优化中解放出来,提前预知集群的健康度,避免事故的发生,百度外卖自主开发了一整套系统。
据百度外卖DBA技术负责人徐俊劲介绍,该系统主要有两大亮点:
第一, 智能资源优化。系统会采集和分析数据库集群的服务器资源使用情况、数据库的内部参数信息、数据量和流量信息、业务的属性信息,并提供机制让RD和DBA同步信息。这样系统就会”了解“每个库表的用途、重要程度、压力负载,再通过对这些数据的分析和挖掘,智能化的判别业务的设计是否合理,数据库的资源使用是否合理,分析不合理的主要原因,给出RD系统和资源优化的建议,帮助RD主动发起优化,更好的设计和使用数据库。
第二, 智能风险管理。系统会收集已有的数据库异常,建立相应的知识库,采集数据库集群的系统、数据量、流量数据,发现其中的风险点。再评估各个风险的发展趋势,风险发展成故障所带来的影响,预测哪些风险会随着时间的变化而导致集群崩溃。对于这些风险点,系统会智能化的推荐解决方案,从而将问题扼杀在萌芽阶段,提升整个系统的稳定性。
通过智能资源优化和智能风险管理,系统一方面帮助RD更好地了解自己负责业务的数据库状况,主动发起优化;另一方面也帮助DBA更好的深入业务,从业务的角度发起设计和优化。
数据库故障事后补救固然重要,但事前预防亦不可轻视
从今年年初,数据库安全事件就层出不穷,先是有MongoDB企业用户多次被黑客勒索,再是有暴雪旗下的《炉石传说》游戏的数据库因意外断电而导致数据损坏,其备份数据库也同时发生故障,无奈被迫回炉……这一系列事件都表明数据库故障并不是某个企业的偶发事件,而是所有企业的痛点所在,所以相比于事后补救,事先预防显得更为重要。
徐俊劲认为事先预防工作可以从以下七个方面来着手:
·监控预警:设定预警监控项和监控阈值,在故障发生之前报警,人工或自动化的解决问题,避免故障发生;
·建立知识库:对已经发生的故障建立知识库,进行拆解和分析,抽象出通用问题,进行提前预防;
·报警自动化:对于常见故障,实现报警的自动化处理,与监控联动提升系统的自我修复能力;
·定期巡检优化:人工或自动化对系统进行巡检,发现存在的主要问题,并发起优化,避免问题越积越多;
·容量评估:建立良好的容量评估机制,及时发起容量优化,保证整个系统的容量在一个比较健康的范围之内;
·预案演练:提前梳理数据库的各项预案,保证预案的可实施性并定期预演,保证系统异常可以快速恢复;
·增强系统健壮性:在数据库端优化增加容量裕度,在程序端架构优化提升健壮性,避免服务被异常压死。
云数据库发展势头迅猛,上升空间大
众所周知,数据库产品是众多云服务产品中最具黏性的云计算服务,从AWS到Google再到BAT,几乎所有的科技巨头都在提供云数据库服务,越来越多的企业也在尝试将服务放到云上。而且,云数据库的发展也催生了很多云安全产品,如防DDOS攻击、防火墙、漏洞扫描等工具,毫无疑问云数据库的安全性相较于没有专业人员维护的小公司会有明显提升。
徐俊劲表示,对云数据库的发展应抱以乐观态度,它的发展可以将DBA从繁杂的基础运维工作中解放出来,更多的参与到业务的设计和优化当中,从而提供更好的数据库服务,但同时也要正视云数据库的局限性,其还有很大的发展空间:
首先,虽然有很多专门的安全团队在做云安全产品,但是这些产品采用的还是通用规则,如果这些规则过于严格会导致误伤或误报,而如果太过宽松则起不到安全保障作用。所以这就对运维人员提出了很大的挑战,要通过观察企业自身产品的安全性,制定有针对性的安全和加密策略,保障数据和服务的安全性。
其次,云服务用户的增多自然也就引起黑客的注意,一旦被发现安全漏洞,会导致大量服务受到影响,再加上云数据库对于很多云内部员工是可见的,也在一定程度上增加了风险。所以上云之后并不是万事大吉了,企业运维人员还要持续关注安全防护。
最后,云数据库的发展势头很迅猛,技术上还有很多提升空间,比如IO资源隔离,性能提升,性能抖动等问题。