技术开发 频道

Hadoop在电信大数据业务系统中的应用

  【IT168 现场报道】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

何刚:Hadoop成为打开大数据之门金钥匙

  ▲IT168专题报道:http://www.it168.com/redian/Hadoop2013/

  大会现场来自联通研究院移动互联网产品开发事业部主任王志军,为大家介绍了Hadoop和大数据在行业里的典型应用。

电信大数据业务的源起
▲联通研究院移动互联网产品开发事业部主任王志军

  王主任主要从四个方面介绍了大数据的应用:第一方面源起,第二、电信运营商有哪些大数据,第三、中国联通建成的正在投入使用的大数据业务系统,第四、大数据应用的展望举几个简单的例子。

  一、源起

  我们进入到移动互联网的时代,几乎每个人都有手机,现在在用手机的时候,更多的是个人的电脑,所做的工作除了做一些基本语音和短信的功能之外,绝大部分在手机上的工作是使用数据的流量,移动通讯从语音的时代跨越到数据的时代,运营商有很大的机会,同时运营商遇到了很多流量消费争议的问题。

  目前流量消费争议已经跃升成为用户通讯服务投诉的首位。首先的问题是数据流量消费远不如语音消费清晰透明。语音消费的时候拨打一个电话,对方是谁,打了多长时间,这个时间是可以感知到的。运营商也可以语音通话的详单,如果是发短信,发了多少条短信大体是心中有数的。

  流量消费首先是计费单位是KB,流量消费有一定的不确定性。刚才用手机刷了一下微博、用了一会儿微信,到底用了多少流量,他不知道到底如何进行计费。所以说很多用户基于这种了解,可能很多时候主观认为自己根本没有使用流量,或者是使用了比较小的流量,为什么有的时候会产生比较高额的流量的花费,这时用户运营商来告诉我,这个流量用到哪去了?上了什么网址、用了什么应用产生了什么流量,而不是简单说这个月用了1G或者是700兆的流量,传统的方式已经不满足现在用户的需要了。

  现在3G客户数据流量争议占3G业务投诉是10%,现在整个比例是在逐渐的上升。个别的省份已经达到了20%的比例。目前中国联通每月打到10010客服流量上的投诉是近万起。同时很多用户也基于运营商无法提供上网记录的详单,提出了法律的诉讼。例如某iphone合约计划的用户,他是晚上凌晨到四点睡觉期间发生了巨额的流量,智能手机可能语音的应用、有很多自动更新的应用,这些应用并不是使用了才产生流量,这种情况下用户难以理解。运营商的计量设备无法提供了详单就提出了诉讼。运营商的计量设备就相当于家里的水表,现在是区分不出来做饭、冲马桶、洗衣服用了多少水。如果是给用户提供详单,我们就需要做准确的计量设备做流量的区分。

  原来运营商如何提供详单的,主要是产生于网页设备,GGSN,之前产生话单的方式流量累计到一定的限度,或者是达到一定的时长,或者是现在已经把网络关闭掉了,这时候才是产生流量的话单,这主要是运营商做计费用的,不是给用户来去说明情况的。里面包含的信息可能有手机号码、上页流量是多少,下页流量是多少,或有话单的持续时长,但是不包含网址的信息和访问记录的信息。

  这种情况下,中国联通的移动业务,此前有个客服部门的统计数据,每万元应收收入中因无法提供上网记录详单的数据,造成的投诉和退费赔付是60块钱。GGSN不光是中国联通在用,来自爱立信、华为、中兴、诺基亚都在使用,这种成熟的设备,出现偏差的概率是很小了,绝大部分的赔付是运营商说不清楚,用户有投诉,为了避免争议扩大化,运营商是采用了赔付与和解的方式来处理。

  由此可见提供用户上网记录详单,成为了互联网透明健康环境的关键的因素,这是运营商希望能够做到的事情。

  上网记录是典型的大数据

  例如,每个用户,可能每月的通话记录是几百、几千条,上网的记录绝对不是这个数量级,可能是几万,用的量大可能是几十万条上网数据。例如用手机访问新浪网的首页大致是产生20多条记录,包括手机发起,DS的查询,包括网页中每个元素的下载,其实对网络来说都是独立的请求这样都会产生一条记录。如果用IPAD,新浪网的首页会产生40条记录,如果看了IPAD里的新闻,过来会产生180条记录。

  例如说访问淘宝的触摸平板也会产生6条记录,此外还有大量后台推送的消息,相当于是苹果的手机有很多通知的服务,例如说微信,很多的通知的服务业在悄悄的进行。

  经过统计,中国联通用户上网记录每个月是超过了两万亿条,并且还在增长。数据量是全国目前运营商所有类型的计费话单的30倍以上,包括语音详单、短信详单、采信详单以及包括此前运营商给的流量记录详单,所有的数据量的30倍以上。

  移动互联网是快速的发展期,大约每8个月流量会翻一番,今年年底4G的牌照会发放,在LTE的时代,用户的流量的消费会越来越大,现在是两万亿,明年这个时候是五万亿条,之后也许是八万亿条,数据很巨大。

  上网数据是个典型的大叔据

  采用什么方式进行存储和检索呢是个大问题,此前运营商采用的架构方式是IUE的架构,用IBM小型机,用商用的关系型数据库,用高可靠性的EMC的存储,构建无论是计费系统还是帐户系统,很多的系统都是这样方式构建的这个很昂贵,但是它解决不了我们的问题。存储这么大规模量的数据,以后超越了可管理容量的上线。在做查询的时候,关系型数据库对大规模操作的时候性能是严重下降的。

  数据量达到500G延时可能是三千秒,意味着两万亿条记录的数据,分期、分表存下来,达到500G用户有个查询的请求意味着一个小时才能给用户响应,即使做过优化查询的速度也是半个小时以上,审核公司也做过实验,经常一个查询是几个小时才能查询到用户的详单。

  我们面临的问题是数据快速的写入,每月有两万亿条记录,每天有超过七百亿条记录,这么大的数据量如何快速的存储下来,那面记录在源源不断的生成,我们必须保持足够的速度记录下来,第二我们的数据如何快速检索提供给用户,在什么时候上了什么网址用了多少流量。上网记录的数据本身是个高价值的数据,它是目前为止可能是用户在移动互联网行为上的一个最基础、最原始的数据,这个数据如何进行高效的分析和挖掘。这么大的数据量,如何来进行低成本的存储,都是当时面临的问题。

  Hadoop可以帮助我们解决这些问题

  Hadoop采用开源的方式,构架了普通的PC服务器之上,抛弃了高端的存储,也可以保证高可靠性,适合数据快速的写入,以及有快速检索的方式,这样相当于有十亿的业务需求解决不了问题,Hadoop帮我们解决了,这是我们跟Hadoop脱离了实验室的概念,是真正的商用系统上第一次亲密接触。

  电信运营商有哪些数据和服务?

  电信运营商整体网络结构大体是这样的:构建一张网络,有固定电话的网络、移动通讯网络、宽带的网络,这是跟每个消费者是密切相关的。电话的网络是拨打电话,宽带的网络,所有的移动互联网的行为都在宽带网络上都连接上了看待的网络,只不过目前运营商不知道,只知道用了多少小时、多少流量,移动网络也是同样。

  之前运营商构建了很多业务平台,比如中国联通有很多业务平台,提供短信的服务,以前提供短信服务运营商关注的点是业务提供好,用户可以开通、订购,把费用计算清楚就可以了。我们知道用了多少次短信,但是短信中有发给谁?有相关的内容的信息,这些信息运营商是视而不见的,理论上根据一个短信就可以构建一个社交关系的图谱,但是之前并没有做这件事。例如说采信、语音,当一个用户经常去拨打移动12580、11614也好,经常去拨打喜来登酒店,通过这些信息可以知道他有可能是个商旅的用户,甚至他拨打哪个酒店的电话可以区分出,他是低端的用户还是高端的商务用户,这些信息以前运营商是视而不见的,我们只是把记录记下来,之后做一次批价把钱收到了其他的信息都过滤掉了。

  还有云通讯录、位置服务,我们做移动互联网应用的时候,很多时候要打开位置服务,其实运营商可以知道你在什么时间、在什么位置,但是这些信息并没有搜集,很多的数据在我们的网络中但是我们没有用。例如说联通有沃阅读的业务,我们更关注谁去订购了阅读的业务,买了哪本书、花了多少钱,但是过程是怎样的,可能选购一本书之前浏览了很多相关的数据,这些过程的数据如果存储下来,其实就可以分析出很多用户的行为来。

  此外运营商开放的平台还有聚合类的和开放的业务。还有运营商的IT支撑系统,对普通人来说IT支撑第一是客户关系管理系统,客户的时候客户的信息、用户的信息、支付银行帐号信息都在客户关系管理系统中,运营商所有的产品的信息、套餐的信息也在,你是金牌还是银牌用户还是VIP用户信息都有。只不过之前并没有用过这些信息,消费行为的信息可以知道你是高端还是低端用户,这种信息现在显得更加宝贵。

  包括合作伙伴的信息在运营商中都有数据,还有综合计费帐目系统,以前做的事情是正确的算数给用户一份帐单,其实里面也蕴含大量的信息,以前的采集系统是采集的是话单,在大数据时代不光要采集一些计费的话单,也要采集用户使用业务中的所有的数据,可能包括上网记录的数据以及其他的数据,等等的数据,还包括网管的数据,例如综合资源管理系统,目前网络告警和监控的数据,内部ERP数据、办公自动化的数据等等,这些都是运营商拥有的数据。

  运营商拥有IDC,数据虽然是IDC的,但是如果能够在IDC的出口监测相应的流量也可以获得很多有价值的信息,上面构建了开放的平台,我们会把业务平台的能力,支撑系统、IDC开放出去,另外运营商也构建了应用商店,中国连通有沃商店等等,这上面也有很多用户行为的数据,还有第三方的应用还有终端和终端侧的数据,我们可以掌握现在用什么终端运营商的网络是了如指掌的,关键是搜集上来如何利用好。

  这么多的数据到底哪些是大数据呢?

  可能有些数据在现在来看,以前是大数据,现在来看并不算什么大数据,运营商有两类数据:一类是过程数据,例如说淘宝,最终在购买一个产品之前整个的过程发生了什么。现在虽然在用一次微信,但是其实对运营商的网络是很复杂的过程,在什么基站之下,运营商如何寻知你,上网过程发生了什么,整个数据对运营商来说都很重要。

  一类是移动网络数据域可以有用户上网数据记录数据和大量新的数据,可以知道为什么上不去网,为什么上网的速度很慢,现在的数据对运营商行为改善网络质量是有意义的。移动网络电路域语音数据,位置更新和网络测量的数据,这些数据是无时无刻不发生的,这个数据跟上网数量的数据是有过之无不及。

  移动网络网民的日志数据也是种大数据,再有是宽带上网记录的数据,宽带移动网络的流量目前占整体互联网流量是12%,如果采集宽带的数据至少是上网记录的数据十倍的量。运营商网络互联点,跟中国电信和国际互联点的数据都可以采集,这些都是采集的大数据。包括语音短信的详单,用户身份的数据,用户帐单和消费记录的数据,长久保留下来也是大数据。

  数据只有集中才能发挥最大的价值,目前有的数据是孤立在各个业务系统中的,在移动互联网的时代,运营商越来越被“管道化”,但是我们忽略了数据的宝藏,应该把数据集中起来,让数据发挥更大的价值,语音业务量会逐渐的减少,但是数据如果充分的利用好,就能够有更大的发展。

  中国联通大数据业务系统主要应对几个挑战

  第一、是流量争议、明白消费。

  第二、信息安全监管的挑战,我们需要把一些用户上网行为数据存储下来,为了未来的信息安全监管的需要。

  第三、数据挖掘、用户行为分析。

  第四、智能感知健全,我们挖掘出来的术语很多时候需要跟目前的网络上下文关联起来。例如说做了用户的画像,当前在什么场景下,要结合网络上下文,如果是在喜来登的酒店中午的时间,我们利用一些数据就可以给你推荐一个比较好的餐馆等等的方面,数据在什么时间发挥什么效用都是我们要做的。

  还有应对移动网络建设和智能分析,我们有很大的移动网络,目前网络的建设是缺乏科学性的。我们在全国31个省份构建了分光采集系统,我们采集用户所有的移动上网数据的流量,通过DPI的设备解析用户上网的数据,我们构建了一套新的计量系统、采集系统,这些数据全部汇总到联通总部大数据平台上,我们上网记录数据每月两万亿条记录全部汇总到大数据平台上,构建了相关的业务系统。目前每日采集的原始数据流量是接近1GB,我们实时存储到大数据平台上。

  大数据平台上,基于Hadoop构建了分布式的数据处理系统

  上面是上网记录数据、日志留存的数据等等的数据,这些数据在不断的进行扩充,我们构建了“数据仓储”,对原始的数据做轻度的汇总的操作,来形成各种统计分析的数据,以及基于这些数据构建用户的互联网上的用户的画像。另外也构建了互联网用户标识库,如果在使用微信,我们会知道只要使用了微信,我们就知道你不仅是个联通用户也是微信用户。比如说使用微博,我们可以采集到微博的ID,我们就知道你电话手机的号码,我们也知道微博的ID。如果是用QQ,如果没有甚至可以知道QQ的号码,这些数据是对原有数据的补充。

  中国联通以后接触你的渠道越来越多,通过手机号码可以跟你接触,也可以通过微信和你接触,联通构建了很多系统,也构建数据分发和开放的平台,希望数据可以开放出去,我们数据可以通过一些逆命化的处理,一些去隐私化的处理可以分发出去,可以分发给中国联通私有端的业务系统,也可以分发给第三方的业务系统,由他们做针对他们数据分析和挖掘的工作。

  联通主要用到了Hadoop、HDFS还有统计分析和挖掘的工作

  目前我们整个平台三点NameNode节点,集群监控的节点和入库服务节点,还有Zookeeper节点7台,我们也提供了Web为查询服务的节点,我们构建了数据中心的网络。

  我们的上网数据有用户号码的数据,有目前在网络承载的数据,是用2G的网络,还是GPRS上来的,还是WCDMA上来的,有上网的地点,我们可以知道基站号,如果是国外漫游也知道基站好,我们通过SDSD可以知道你是在泰国还是马来西亚还是新加坡。包括上网的方式和业务的类型,我们对你每次使用的业务进行识别,包括信息的类型以及上一页的流量和下一页的流量,开始和结束的时间,以及服务器端的ID地址和终端的类型,以及终端上应用的类型等等这些信息都可以获取下来并进行保存。

  上网记录的数据量,目前有两万亿条记录每月。红色柱状图是1到10月份日均流量,1月份联通移动网络上的流量是550TB,现在已经上升到1PB。1月份每天上网记录量是320亿条,到现在10月份平均的记录量是750亿条。在11月份的时候经常每天是超过800亿条记录,峰值878亿条记录的量。整个环比是以10%速度增长。

  每天记录的条数,10月1日记录量是可以的,节假日用户上网行为并不是很多,可能大家在出游跟亲朋好友聚会,到了7日之后整个上网记录量迅速的增长,一直到23、24日用的用户的流量是超了,或者是省的流量不多了,这时候是缓慢的下降,之后28、29日的时候又有一点回升,是还剩一些流量可以放心大胆用用。整个单纯看记录量就一定程度能够反应一个用户的群体的行为。

  入库的数据是每天凌晨五点的时候。每天凌晨上网记录量是比较少,大家是睡觉的状况。到七点之后是显著的增加,中午十二点的时候是达到峰值,紧接着下午六七点钟是小小的低谷,晚上九点的时候是用户使用移动互联网的高峰时段,腾讯微信也是这个时段为高峰。七百多亿的情况下,入库峰值是120万条每秒。

  省份流量分布情况,第一是解决流量投诉的问题,开放给10010和前端客户使用,现在也面最终用户开放,用户可以通过手机去下载联通的手机营业厅,可以查询到大流量用户上网记录的情况,现在已经全部开放了。

  目前我们整个的采集覆盖了联通的移动网络所有的端口,数据的存储入库的时间从发生了流量到可以查询到记录保证了30分钟之后可以查询到,实际运行中基本上10分钟就可以查到10分钟前上网记录的情况。当前保存了四个月的数据,虽然规模的扩大在做升级和扩容的工作,之后希望保存更长时间的数据。统计分析数据是不小于五年的,目前的情况下,单表两万亿条记录的情况下,可以保证前台的查询不高于2秒,就可以查询到如果有几万条上网记录,我们2秒钟内会展现在客服的界面上,这个速度基本上打10010有流量投诉的问题,征求同意的情况下查询用户上网记录来去做解答。

  我们可以看到每一个记录的访问的网址情况,你用了什么样的客户端,用了什么终端全部可以提供查询。手机自助查询,可以提供大流量的查询服务,目前的系统每天流量的10010每天大概有一万五千次左右的查询的量,现在手机这部分查询量现在每天也在保持四、五万条查询量的情况下,整个的系统在刚才的情况下保证了整个服务的质量。

  移动网络的监测和规划优化

  以前是以话务量预测为依据来建网络的,当地的话务量、当地的经济发展情况、GDP发展情况来预测的。三大运营商每年在网络上的投资是几千亿,网络资源整体过剩,网络资源整体利用率不到50%,网络是轻负载的状态,但是网络的投诉却很多,局部地区打不通电话,上网速度慢的问题突出,我们该建的基站没有建在最应该建设的地方,5A级风景区我们要做到3G的很好覆盖,实际上用户登山的时候不会拿着手机玩玩,他更多的是话务量覆盖为主,如果我们建一个深度的覆盖把流量覆盖上去,那个基站是轻度负载的,运营商很多投资是浪费了的。

  也缺乏很多监控手段,我们做室内的覆盖,覆盖了很多基站,但是室内的基站如果不好用了,运营商很难发现,如果是室内基站坏了,外面有外部的覆盖,用户一样打通电话,一样是使用移动互联网的业务只不过体验是降低了,这时我们如何发现。移动基站规划建设我们认为需要跟用户的流量实际分布情况进行吻合,有了用户上网记录的数据,我们是可以很清楚的了解到目前移动互联网的流量分布的情况,根据流量分布的情况可以有效的提高整个网络建设精准性和投资的有效性。

  通过上网记录的数据,可以知道这个基站好象有两天没有流量发生了,如果在写字楼里有情可原,如果是周四、周五我们要提出预警了,可能是出了问题。

  数据是集中化的

  我们在某个地区来做了个试点,通过分析现有基站流量的情况,来去指导下一阶段基站建设的情况,发现确实达到了精准、有效和满意的目标,可以分析当2G的基站数据量很巨大的时候,意味着这个地方可能3G基站没有做到有效的覆盖,用户有需求,但是全部回落到2G的基站,这个地方建一个3G基站就保证了投资的精准和有效。

  同时,还做了统计分析和数据挖掘的工作,可以看到目前识别的每种业务流量分布的情况,如QQ业务流量。在凌晨五点是最低点,晚上21到22点是流量最高峰。

  展望应用大数据的价值:

  第一、可以提升用户的服务水平。网络记录提供用户的服务水平,可以提供精准的查询服务,还有业务营销。利用现在大数据来去做精准的营销和市场推广的工作,还有决策支持,经营状况的评价,运营商整体的发展策略的制定,以及网络优化和管理。

  第二、另外把线上的数据采集上来之后可以更好的还原,比如说上不去网,可以精准的还原出来上不去网的过程,哪一步出现了问题,可以精确定位到一个网源设备上。

  开放Web数据

  第一方面是提供服务的接口来去开放,例如说目前收到很多垃圾短信,为什么垃圾短信因为是无目标乱发的短信,我们用了用户的行为和画像,我们可以做到精准的发送,现在发了短信可能两分钱一条,我们提供的服务是两毛钱一条短信的服务,但是保证质量,把短信送到最应该送到的人手里。

  电信运营商和互联网企业大数据上的优劣势。运营商有用户真实的信息,这是依靠运营商,办了中国联通、中国移动、中国电信的业务,这是要拿着身份证,我们有实际支付的信息,这个月用了220还是386的套餐是有很准确的数据,包括你的消费水平。互联网企业是难以获得精准用户身份的数据。我们有用户行为全维度的信息,你在访问微博和淘宝,全部流进运营商的网络。互联网企业淘宝是自己的数据,百度也是看到自己的数据,我们有更全面的试图。我们看到过程的数据,但是不知道最终购买了什么,中间看过了什么,中间商品的名字,这个我们是很清楚的,我们觉得是优势互补的过程。

  大数据挖掘应用 可以做到智慧的运营

  可以做离网的预警,分析离网用户。在离网前几个月用户消费的行为之后,构建一个合适的模型,就可以提前一到两个月对哪些用户离网做个预警。

  另外还可以做差异化的服务。个性化的推荐,有的推荐可能是实时的,有的是非实时的,我们有了数据挖掘的数据,再配合前台的数据更新处理,这两者结合之后,我们知道用户上下文的信息,现在在哪?几点钟?在什么位置上?你是个什么样的用户类型?这几个方面结合起来之后整个个性化的推荐是更加精准。

  智能广告的投放,目标是怎样的、投放给谁、通过什么渠道去投放,以前的运营商接触用户的渠道是手机号码,我们通过网络行为的数据,可能会知道微信号码,这样有更多的开放的渠道,这些开放的渠道,从运营商的角度也可以开放给第三方应用,第三方应用通过调用服务也可以利用渠道去接触用户。

  我们对流量的拉动,包括自营业务的对包分析,我们的沃商店和91助手的差距,以及精细化的运营,LTE决策的支持等等都取得了成效,这些成效还是初步的,更大的前景是在后面。

  小结

  中国联通依托于开源的Hadoop技术,构建了上网数据为核心的数据平台,这个数据平台目前是全球通信行业中首次实现了全网记录的采集和集中存储,也是首次向用户提供实时查询的服务,到目前为止还没有第二家运营商做这件事。

  依托大数据平台,实现了客户服务的创新,一定意义上解决了透明消费的问题,让用户放心消费。依托大数据平台,应用到运营商的网络规划和建设方面,再有初步构建了大数据分析和挖掘平台,这个平台为下一步会进一步构建大数据分发和开放的平台,把数据开放出去跟合作伙伴共享,当然共享是在保护用户隐私的前提下,另外积极扩大数据来源,现在要做限定数据的采集、固网宽带数据明年这个时候已经采集上来了,还有其他数据的采集。

  采用Hadoop的体会

  第一不要低估数据量增长。第二做持续不断的优化,构建专职的团队,要进行系统优化,淘宝优化的方式可能跟联通优化的方式是不同的,因为各有各的业务的特征。再有重视Hadoop集群内部网络的互联,整个网络Hadoop集群运行的稳定和高效的数据挖掘是很重要的。之前网络方面出了一些问题,就导致了整个集群在一段时间运行越来越慢,直到整个集群崩溃掉,需要进行重新启动,有这么一个周期性的过程,很多的问题是网络引发的。统计分析的查询做适当分离,我们的系统去提供数据的实时入库和查询,当做大量统计分析的时候对入库会产生影响,可能是入库的挤压,对查询的影响不大,我们只在上面跑一些定期的任务,这些定期任务的结果会构建在另外的集群上,数据库的结构设计要做好充分的准备工作。

2
相关文章