技术开发 频道

Hadoop在电信大数据业务系统中的应用

  中国联通大数据业务系统主要应对几个挑战

  第一、是流量争议、明白消费。

  第二、信息安全监管的挑战,我们需要把一些用户上网行为数据存储下来,为了未来的信息安全监管的需要。

  第三、数据挖掘、用户行为分析。

  第四、智能感知健全,我们挖掘出来的术语很多时候需要跟目前的网络上下文关联起来。例如说做了用户的画像,当前在什么场景下,要结合网络上下文,如果是在喜来登的酒店中午的时间,我们利用一些数据就可以给你推荐一个比较好的餐馆等等的方面,数据在什么时间发挥什么效用都是我们要做的。

  还有应对移动网络建设和智能分析,我们有很大的移动网络,目前网络的建设是缺乏科学性的。我们在全国31个省份构建了分光采集系统,我们采集用户所有的移动上网数据的流量,通过DPI的设备解析用户上网的数据,我们构建了一套新的计量系统、采集系统,这些数据全部汇总到联通总部大数据平台上,我们上网记录数据每月两万亿条记录全部汇总到大数据平台上,构建了相关的业务系统。目前每日采集的原始数据流量是接近1GB,我们实时存储到大数据平台上。

  大数据平台上,基于Hadoop构建了分布式的数据处理系统

  上面是上网记录数据、日志留存的数据等等的数据,这些数据在不断的进行扩充,我们构建了“数据仓储”,对原始的数据做轻度的汇总的操作,来形成各种统计分析的数据,以及基于这些数据构建用户的互联网上的用户的画像。另外也构建了互联网用户标识库,如果在使用微信,我们会知道只要使用了微信,我们就知道你不仅是个联通用户也是微信用户。比如说使用微博,我们可以采集到微博的ID,我们就知道你电话手机的号码,我们也知道微博的ID。如果是用QQ,如果没有甚至可以知道QQ的号码,这些数据是对原有数据的补充。

  中国联通以后接触你的渠道越来越多,通过手机号码可以跟你接触,也可以通过微信和你接触,联通构建了很多系统,也构建数据分发和开放的平台,希望数据可以开放出去,我们数据可以通过一些逆命化的处理,一些去隐私化的处理可以分发出去,可以分发给中国联通私有端的业务系统,也可以分发给第三方的业务系统,由他们做针对他们数据分析和挖掘的工作。

  联通主要用到了Hadoop、HDFS还有统计分析和挖掘的工作

  目前我们整个平台三点NameNode节点,集群监控的节点和入库服务节点,还有Zookeeper节点7台,我们也提供了Web为查询服务的节点,我们构建了数据中心的网络。

  我们的上网数据有用户号码的数据,有目前在网络承载的数据,是用2G的网络,还是GPRS上来的,还是WCDMA上来的,有上网的地点,我们可以知道基站号,如果是国外漫游也知道基站好,我们通过SDSD可以知道你是在泰国还是马来西亚还是新加坡。包括上网的方式和业务的类型,我们对你每次使用的业务进行识别,包括信息的类型以及上一页的流量和下一页的流量,开始和结束的时间,以及服务器端的ID地址和终端的类型,以及终端上应用的类型等等这些信息都可以获取下来并进行保存。

  上网记录的数据量,目前有两万亿条记录每月。红色柱状图是1到10月份日均流量,1月份联通移动网络上的流量是550TB,现在已经上升到1PB。1月份每天上网记录量是320亿条,到现在10月份平均的记录量是750亿条。在11月份的时候经常每天是超过800亿条记录,峰值878亿条记录的量。整个环比是以10%速度增长。

  每天记录的条数,10月1日记录量是可以的,节假日用户上网行为并不是很多,可能大家在出游跟亲朋好友聚会,到了7日之后整个上网记录量迅速的增长,一直到23、24日用的用户的流量是超了,或者是省的流量不多了,这时候是缓慢的下降,之后28、29日的时候又有一点回升,是还剩一些流量可以放心大胆用用。整个单纯看记录量就一定程度能够反应一个用户的群体的行为。

  入库的数据是每天凌晨五点的时候。每天凌晨上网记录量是比较少,大家是睡觉的状况。到七点之后是显著的增加,中午十二点的时候是达到峰值,紧接着下午六七点钟是小小的低谷,晚上九点的时候是用户使用移动互联网的高峰时段,腾讯微信也是这个时段为高峰。七百多亿的情况下,入库峰值是120万条每秒。

  省份流量分布情况,第一是解决流量投诉的问题,开放给10010和前端客户使用,现在也面最终用户开放,用户可以通过手机去下载联通的手机营业厅,可以查询到大流量用户上网记录的情况,现在已经全部开放了。

  目前我们整个的采集覆盖了联通的移动网络所有的端口,数据的存储入库的时间从发生了流量到可以查询到记录保证了30分钟之后可以查询到,实际运行中基本上10分钟就可以查到10分钟前上网记录的情况。当前保存了四个月的数据,虽然规模的扩大在做升级和扩容的工作,之后希望保存更长时间的数据。统计分析数据是不小于五年的,目前的情况下,单表两万亿条记录的情况下,可以保证前台的查询不高于2秒,就可以查询到如果有几万条上网记录,我们2秒钟内会展现在客服的界面上,这个速度基本上打10010有流量投诉的问题,征求同意的情况下查询用户上网记录来去做解答。

  我们可以看到每一个记录的访问的网址情况,你用了什么样的客户端,用了什么终端全部可以提供查询。手机自助查询,可以提供大流量的查询服务,目前的系统每天流量的10010每天大概有一万五千次左右的查询的量,现在手机这部分查询量现在每天也在保持四、五万条查询量的情况下,整个的系统在刚才的情况下保证了整个服务的质量。

  移动网络的监测和规划优化

  以前是以话务量预测为依据来建网络的,当地的话务量、当地的经济发展情况、GDP发展情况来预测的。三大运营商每年在网络上的投资是几千亿,网络资源整体过剩,网络资源整体利用率不到50%,网络是轻负载的状态,但是网络的投诉却很多,局部地区打不通电话,上网速度慢的问题突出,我们该建的基站没有建在最应该建设的地方,5A级风景区我们要做到3G的很好覆盖,实际上用户登山的时候不会拿着手机玩玩,他更多的是话务量覆盖为主,如果我们建一个深度的覆盖把流量覆盖上去,那个基站是轻度负载的,运营商很多投资是浪费了的。

  也缺乏很多监控手段,我们做室内的覆盖,覆盖了很多基站,但是室内的基站如果不好用了,运营商很难发现,如果是室内基站坏了,外面有外部的覆盖,用户一样打通电话,一样是使用移动互联网的业务只不过体验是降低了,这时我们如何发现。移动基站规划建设我们认为需要跟用户的流量实际分布情况进行吻合,有了用户上网记录的数据,我们是可以很清楚的了解到目前移动互联网的流量分布的情况,根据流量分布的情况可以有效的提高整个网络建设精准性和投资的有效性。

  通过上网记录的数据,可以知道这个基站好象有两天没有流量发生了,如果在写字楼里有情可原,如果是周四、周五我们要提出预警了,可能是出了问题。

  数据是集中化的

  我们在某个地区来做了个试点,通过分析现有基站流量的情况,来去指导下一阶段基站建设的情况,发现确实达到了精准、有效和满意的目标,可以分析当2G的基站数据量很巨大的时候,意味着这个地方可能3G基站没有做到有效的覆盖,用户有需求,但是全部回落到2G的基站,这个地方建一个3G基站就保证了投资的精准和有效。

  同时,还做了统计分析和数据挖掘的工作,可以看到目前识别的每种业务流量分布的情况,如QQ业务流量。在凌晨五点是最低点,晚上21到22点是流量最高峰。

2
相关文章