【IT168 专稿】2014年4月10日-12日,第五届中国数据库技术大会(DTCC 2014)在北京五洲皇冠国际酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理(数据治理)、传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要。
自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix两大技术社区,已经连续举办了四届中国数据库技术大会,每届大会与会规模超千人,大会云集了国内水平最高的数据架构师、数据库管理和运维工程师、数据库开发工程师、研发总监和IT经理等技术人群,是目前国内最受欢迎、人气最高的的数据库技术交流盛会。今年是中国数据库技术大会五周年,大会将继续秉承分享IT非常好的应用实践的宗旨,围绕传统数据库和大数据两条技术主线,在目前IT技术和管理快速的大背景下,更加深入地探讨数据库技术的现状和未来的发展方向,以及我们在这个转型过程中的实践经验和教训。
在4月10日下午举行的《Hadoop技术实战和应用》专场演讲中,来自中国移动研究院"大云"项目组Hadoop技术专家王宝晗老师为我们分享了关于'大云'Hadoop平台及应用的相关话题。
本次演讲,王宝晗老师主要为我们介绍了Hadoop在中国移动“大云” 云计算平台中的应用。据悉,中国移动“大云” 云计算平台主要包含两部分——PaaS层、IaaS层。而Hadoop主要是被部署在PaaS层面。
在PaaS层中的商务智能平台中,应用到Hadoop的部分包括并行数据挖掘工具集(BC-PDM)、数据仓库系统(HugeTable)、数据并行框架(BC-BSP)、数据存储与处理(BC-Hadoop)。
数据存储与处理
据王宝晗老师介绍,BC-Hadoop的含义是,对开源Hadoop/HBase进行扩展和增强,为大云其他组件提供基本的存储计算能力。分别基于Hadoop 1.0 和 2.0 提供1.0和2.0两个版。
对于BC-Hadoop 1.0主节点HA,主要参考Facebook AvatarNode的实现,采用双主NameNode的自动故障检测与切换,大大缩短了NameNode切换时间和对应用系统的影响。
实现多个JobTracker的自动故障检测和切换
· 多个JobTracker启动并注册到Zookeeper;
· 选举其中一个JobTracker作为Active;
· 作业状态数据保存在HDFS;
· Failover时,从HDFS读取作业数据,并继续执行作业。
此外,王宝晗老师还介绍了HBase Coprocessor优化,既CP本地汇聚。目前Apache Hbase社区的实现机制是以Region为单位执行请求,每个请求直接发送到Region上,每个Region执行处理后将结果直接返回给Client。
数据并行框架
BC-BSP的含义是,针对社交网络分析、用户精准营销、搜索引擎PageRank计算等图计算领域的数据挖掘需求而研发的并行计算框架,针对迭代计算,计算效率优于MapReduce框架。
数据仓库系统
HugeTable的设计目标是,具备海量数据管理能力;满足网管、经分、增值业务系统需求;方便的整合现有应用。HugeTable系统的主要特点是,支持数据的IUD操作;HBase存储引擎:支持同一份数据进行实时查询和统计分析:Hive直接读Hfile进行统计,通过HBase实时查询;Join优化:按照join key将两个表的数据存储在同一个HBase Table的不同column。
并行数据挖掘工具集
BC-PDM是支持SaaS模式的海量数据并行处理、分析与挖掘系统。适用于经营决策、用户行为分析、精准营销、网络优化、移动互联网等领域的智能数据分析与挖掘应用。并行数据挖掘工具集特点:
· 数据交换:支持与RDB直接交换数据、支持CSV格式数据;
· 数据ETL:支持数据清洗、转换、集成等7大类45种ETL;
· 数据探索:支持数据统计、变量分析、分布特征探索等;
· 数据挖掘算法:支持分类、聚类、关联分析等3大类共15种算法;
· 社交网络分析:支持网络特征分析、社团发现和演化、社团展示等;
· 支持SaaS服务模式:Web浏览器使用,并可支持应用共享;
· 支持丰富的用户UI: 支持Web图形化方式创建数据分析逻辑,支持SQL脚本方式,支持CLI命令行方式;
· 支持二次开发:Java API、Web Service。