技术开发 频道

用Amazon AWS构建可伸缩的数据分析平台

  【IT168数据库大会现场报道】2013年4月18-20日,第四届中国数据库技术大会(DTCC 2013)在北京福朋喜来登酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理(数据治理)、传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要。

  自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix技术社区已经连续举办了三届数据库技术大会,每届大会超过千人规模,云集了国内技术水平最高的数据架构师、DBA、数据库开发工程师、研发总监、IT经理等,是目前国内最受欢迎的数据库技术盛会。

数据开发工程化实践

  ▲点击进入第四届中国数据库技术大会(DTCC 2013)报道专题

  今天是数据库大会的第三天,更多的数据库实践文章精彩不断。兰亭集势数据平台架构师:张挚庸给大家带来了《云端漫步——利用Amazon AWS构建可伸缩的数据分析平台》的主题演讲,本文是其中的部分内容。更多内容请关注数据库大会官网的相关视频和PPT资料。

利用Amazon AWS构建可伸缩的数据分析
▲兰亭集势数据平台架构师:张挚庸

  首先张挚庸给大家介绍了兰亭集势

  兰亭集势(Lightinthebox)是中国整合了供应链服务的在线B2C(内部叫做L2C,LightInTheBox 2 Customer),该公司拥有一系列的供应商,并拥有自己的数据仓库和长期的物流合作伙伴,截止到2010年兰亭集势是中国跨境电子商务平台的领头羊。

  兰亭集势 -整合跨国供应链

  1、每天100多个国家的数百万访客;2、每天数万多个包裹发往 100多个国家和地区;3、19种语言提供服务;4、数十万种在售商品。

  兰亭数据处理的特点

  1、从数据特点上看:离线分析,实时服务;原始信息非结构化;数据产生于国外。

  2、从数据来源上看:来自于 Web Server 的 Clickstream;来自于定制 Collect Server 的各种 Tracking 信息。

  3、从计算的需求上看:集群规模不大;集群使用不饱和;需要较大的计算弹性。

  兰亭数据分析的类型

  从分析角度来看:用户行为分析、品类效能分析。

  从用途来看:运营指标分析、广告效果评估与自动竞价、商品陈列优化、帮助购买(商品关联推荐与促销)、A/B Test结果评估。

  原有数据处理平台架构

利用Amazon AWS构建可伸缩的数据分析
▲原有数据处理平台架构

  原有数据处理平台的不足:

  1、数据与距离远,跨国传输成本高;2、存储能力与计算能力是静态的,计算与存储绑定,受集群节点数目限制,必须通过增加硬件投入来提高存储和计算能力;3、计算能力浪费与计算能力不足并存,缺乏弹性。

  使用AWS的数据处理平台架构

利用Amazon AWS构建可伸缩的数据分析
▲使用AWS的数据处理平台架构

  使用到的AWS服务

  1、EC2 - Elastic Compute Cloud:Amazon 提供的基础计算虚拟实例

  2、S3 - Simple Storage Service:Amazon 提供的存储服务

  3、EMR - Elastic MapReduce:运行在EC2上的 MapReduce 环境

  两种平台架构的对比

  1、本地 Hadoop

  优点:调试方便,运行结果可及时检查。缺点:受集群硬件限制,计算能力不能及时调整。

  2、Elastic MapReduce

  优点:计算能力按需调整。缺点:结果保存在S3上,调试不便。

  为什么要使用 EMR 替代本地 Hadoop:降低数据传输成本、增加数据存储能力扩展性、增强计算能力的扩展性、提高伸缩响应速度、摊薄存储与计算成本

  开发自定义本地接口调用AWS:降低学习曲线,简化使用;透明化AWS与本地集群的调用切换;方便其他程序模块调用;加入权限管理与费用控制;帮助提高代码质量,减少成本浪费。

  自定义接口的安全控制:账号集中管理、账号权限与本地管理策略一致、细粒度控制不同账号在S3上的操作权限、集群规模控制、费用控制。

 

0
相关文章