技术开发 频道

海尔黄哲铿:大型电商云平台建设实践

  【IT168资讯】2015年10月22日,第七届中国系统架构师大会在北京新云南皇冠假日酒店隆重举行。本次大会以《互联网+重塑IT架构》为主题,邀请了中国最优异的架构师前来做主题分享。今天上午,来自海尔集团的技术总监黄哲铿做了主题为《大型电商云平台建设实践》的演讲,并拿出了三本自己编写专业书籍,引发现场架构师的追捧。

海尔CTO黄哲铿:大型电商云平台建设实践
2015中国系统架构师大会现场报道

  电商的发展如火如荼,都在做自己的电商,过程中架构师起到非常重要的作用,甚至影响千万家庭的和谐:电商断网老婆埋怨丈夫,丈夫给孩子脸色,孩子和奶奶闹腾,奶奶和老婆瞪眼,虽然是打趣,但是架构师的价值确实重要。

海尔CTO黄哲铿:大型电商云平台建设实践
黄哲铿 海尔集团技术总监

  建设电商的自动化私有云平台

  罗马不是一天建成的,混合私有也不是一天打造的。很多电商网站从初创的十个人就要建设一个网站,要快速把应用发布到机器中。每天做到几百万交易额之后就要构建私有云,每天十几万的用户就要做网站的技术布局,发展非常快,系统扛不住了。构建私有云平台做一些分层,IaaS、PaaS、SaaS。

海尔CTO黄哲铿:大型电商云平台建设实践

  电商云平台演进

海尔CTO黄哲铿:大型电商云平台建设实践
▲私有云的经典整体架构图

  私有云业务模块组成

海尔CTO黄哲铿:大型电商云平台建设实践
模块组成

  从业务角度,私有云依旧每个公司的特点有侧重点,分为资产管理,多少台服务器交换机,对接到财务端。对自己的投入产出和价值清楚的认识,费用的管理,每月的带宽CDN的费用。

  问题管理,各种请求,修改配置,线上硬件的问题处理,要把这些记录登记到系统中。

  发布平台,需要灰度发布,让应用持续的提供服务。

  流量控制,把CDN的服务厂商让他们随意的切换,可以优化成本。

  日志分析非常重要,大数据驱动自动化运维,大数据依据的是全流程的数据收集,应用的日志,访问的日志要记录下来,发现问题的时间点,前三个报错的问题是什么,可以以后定位问题。最开始的问题不会被掩盖,交换机的问题会导致下边所有的应用出现问题,要快速定位问题,由交换机引起的。

  最底层的CNDB,基础的信息配置、网络信息、机器信息等,人员的信息,资产的信息都要汇聚到这里。

  其中有一些重要模块,监控,警报模式。监控预警分为几个部分,使用Zabbix开源的系统,通过收集Zabbix的信息,汇集到Server,存到MySQL或者Sybase。达到瓶颈后,采用分布部署

  信息要屏蔽,去重,得到分析信息,有些机器的问题出现较多,可以溯源到供应商,解决问题。通过短信邮件语音,给运维人员发布消息。某些集群里有20%的机器出现内存飙高,把预警信息发布给值班人员,遇到这种情况做一些处理,下架有问题的信息,不应影响总的服务,部署一些新的机器顶替。这都是私有云平台要做的事情。

  监控子系统的特色,产生很多历史数据,要对历史数据的处理有些策略,归档或者离线存储等,做到高枕无忧,随时随地推送消息。

海尔CTO黄哲铿:大型电商云平台建设实践
自动化发布,通常是这种过程

  自动化发布的价值,以前通过5分钟录入发布信息,试用自动化发布则实现了无人参与。以前是限制发布,现在敏捷发布,以前是5%的人为故障,现在是无人参与。6%RollBack,现在降低到了0.6%。

  自动化装机的流程

  提交工单,到资源池找机器,配置,配置好了部署应用,触发自动化脚本,在内部管理私有云平台中等级,注册完之后就可以对外服务。整个过程以单机来看,应该是分钟级别。比如,在双十一,流量是平时的数十倍,有了自动化私有云平台,可监控流量,触发自动装机的命令。前提是应用已经准备好,理论上无限可控的状态,需要平时的测色,对系统的承受压力要有心理预期。

海尔CTO黄哲铿:大型电商云平台建设实践
▲电商混合云架构

  过程,电商私有云会发送以请求给公有云,要200台机器,公有云会反馈信息,私有云平台进行机器IP教研,硬盘和内存CUP 、操作系统等是是需要的。之后,私有云平台会公有云平台进行授权,把镜象在公有云进行部署,让公有云和私有云之间进行互通。

  问题是,网络带宽和延迟,可能是通过公网或者专线,多少会有一定的延迟,要注意带宽,混合云架构对应用来说,对接口的调用要压缩传输数据量和次数。否则会对带宽造成阻塞。另外,延迟会带来很大的后果,要将代码中循环调用改成批量调用。

  不同的应用对CUP的要求不同,IO型的对CUP要求非常高。IOPS:不同的云厂商使用技术不同,IOPS差异极大。使用SSD对提升公有云的IOPS有很大作用,但对电商来说还不够。

  如果对公有云做好管理,需要做API的标准化,方便对接外部公有云的资源。另外,稳定性,在混合云下,公有云和私有云会不稳定,调用会做到分钟或者及时分钟级别的切换,可以调度流量,做好切换。安全性方面,核心数据放在私有云,日志用户行为放到公有云,做相应的应用调用处理。

  混合云的收益:以300-500台机器为例,快速部署可以做到2小时内;30分钟内回收,快速销毁;节约成本,只有私有云的七分之一成本;高效灵活,按需部署。

  最后,黄哲铿表示,未来,电商的IT架构是混合云架构,低成本、高效率、更稳定的服务。做了很多自动化的调度,对用户来说,宕机20%也没有感知。未来的混合云云提供商的选择也会有多样化,随着规模越来越大,成本越来越低,将会有更多的选择,实现接口的标准化,节省对接的时间。应用也要去中心化,架构更稳定。

0
相关文章