【IT168 专稿】上大学那会儿,老师就告诉我们,啤酒和尿布这两种看上去毫无关系的商品放在一起出售,可以增加彼此的销量。这是数据挖掘和商业智能的典型案例,即从大量的账单数据中,发现啤酒和尿布的内在联系,从中找出购买规律。现在看来,这些都是小儿科了。
近几年,随着数据量的爆炸式增长,数据挖掘和商业智能也迎来大数据的新时代。单纯的对购买数据进行分析已经不能满足市场的需求,而对潜在客户的行为分析逐渐成为主流。比如电子商务网站的购物推荐功能,能够看到最近浏览的商品、商品销量排行榜,以及购买了这件商品的人还买了哪些商品等等,将消费者的行为数据进行分析,最终将潜在消费变为销售利润。近日,台湾精诚集团在北京发布Etu品牌大数据产品,这是一款针对用户行为分析的专业解决方案Etu Appliance。会后,Etu负责人蒋居裕先生、技术总监陈昭宇先生,以及中科院计算所查礼博士接受了IT168记者的采访,深入讲解了Etu基于Hadoop的大数据解决方案。
▲Etu产品发布会现场(左起:中科院计算所、Hadoop China的发起人查礼博士、精诚云中心暨Etu负责人蒋居裕先生、Etu首席顾问兼资深技术总监陈昭宇先生)
初识Etu
提到Etu,大多数人感到陌生,它是台湾信息服务厂商精诚集团SYSTEX Corporation旗下的Big Data解决方案品牌。精诚集团成立于1997年,是台湾最大的IT服务供应商,在台湾、香港、泰国、新加坡、印尼,都有分公司或办事处,并在上海设立中国区总部,整个亚洲地区大概有3000名员工。精诚集团此次推出的一站式大数据解决方案Etu,从软件、硬件,到整合后的数据处理、分析、与未来扩充时的各个场景提供整体解决方案。
▲精诚集团SYSTEX Corporation旗下的Big Data解决方案品牌Etu
Etu不做数据库,也不做数据仓库,而是一家做非结构化大数据解决方案的厂商。Etu的中文名字是“知意图”,由“意图”发展而来,代表发现市场“意图”,洞悉消费者心理需求。Etu负责人蒋居裕表示,Etu是亚洲首家以企业为市场的大数据厂商,以Hadoop主流技术来呈现一体化解决方案,了解大数据背后冰山底下那些数据的意图。在大数据分析的年代里,需要把“意图”放到解决方案中。这里的意图主要体现在以下三个方面:
一、强化热点。借助会员或者网民日志分析,得知网页上最热门的几个链接,并且需要有针对性的将重要信息要集中在这些位置。
二、个性化邮件:除了发大家一模一样内容的电子邮件以外,还应该发一些针对个人喜好的邮件。比如某人喜欢小说,就应该给这位会员的电子邮件增加一些小说类的内容。
三、关系型推荐。某个会员和另外一群会员行为很像,则可以向相似行为的会员推荐同样的商业类型的项目。
谈到Etu的品牌故事,蒋居裕介绍到,根据以往的工作经历,精诚云中心成立后很快决定将大数据作为重点发展领域,源自其对半结构化数据的市场需求充满信心。考虑到目前大数据的处理成本越拉越高,精诚云中心希望将大数据主流技术Hadoop加入到自己的大数据解决方案中,于是有了现在的团队,有了Etu这个品牌。从2011年9月的初步规划到今年3月的产品发布,只有短短半年的时间,蒋居裕认为这得益于核心团队对Hadoop和大数据事业的热情以及行业经验。
${PageNumber}Etu Appliance——何为Hadoop一站式产品?
Hadoop是一个能够对大量数据进行分布式处理的软件框架,主要由HDFS、MapReduce和HBase等组件构成。中科院计算所、Hadoop China的发起人查礼博士表示,Hadoop最适合的就是文本的处理,即非结构化、半结构化的数据处理。文本是最核心的,其他类型的数据不是不可以,如多媒体的处理,但并不是很适合。
查礼博士介绍了Hadoop的用途,对于Hadoop目前为止两个最常用的场景,一个是把它作为一种存储,相当于一种数据库用来存储非结构化的数据。第二个通过它的处理把数据换到数据库里,进行商业智能分析和挖掘。他表示,这种说法没有问题,但是用来做存储只用了Hadoop一半的功能,它的特点是存储和计算组合在一起,融合在一起,用在一个方面并不是实用的典型案例。
▲Etu首席顾问兼资深技术总监陈昭宇先生
Hadoop作为一款开源的分布式计算框架,因其具有处理大数据存储和处理的能力,得到众多互联网企业的支持。但是Etu此次推出的“Hadoop一站式产品”是什么呢?它有哪些功能呢?据Etu首席顾问兼资深技术总监陈昭宇先生介绍,Etu Appliance之所以被称为“Appliance”,是因为这是款一体机产品,既不是硬件,也不是软件,而是软硬结合、高度优化的设备。Etu Appliance的用户不需要具备很高的Hadoop技术,就能够快速部署,计算和存储一体,十分钟之内能够部署100个节点。
Etu Appliance的软件和硬件都针对与Hadoop技术进行优化,能够使Hadoop性能提升4倍,水平扩展高达2000个节点,内嵌有一些容错的机制,包括备份,不用害怕数据丢失,也可以容忍硬件故障,同时加上管理运维的功能。Etu Appliance的架构是:最小的层级有一个主节点,两个工作节点。数据和任务都是运行在工作节点上的,主节点负责调度整个集群的资源分配。当数据量越来越大,当前架构和容量无法处理的时候,只需加一个工作节点,在已经运行的集群不停机的情况下可以直接扩容,最多可以扩容2000台左右的规模。
▲Etu Appliance展示
Etu负责在整个数据处理过程中能够存储和计算、分析和结构化数据,同时它有很多接口可以跟企业现有的BI工具,甚至是与最熟悉的Excel等工具做对接。陈昭宇先生表示Etu这个品牌,实际上是提供一站式大数据解决方案的服务,不是只有产品。目前已经有针对电子商务设计的应用,即精准推荐应用,以及顾问服务,协助企业探索Big Data的商业价值。
谈到为何采用一体机的形式时,陈昭宇先生表示,企业宁愿投入更多的人力成本在应用上,较少的投入在IT上。可是随着数据库的规模越来越大,需要更专业的IT让这些机器运转,所以不只是软件的问题,也不只是硬件的问题。Hadoop的应用价值显现,但是缺少专业运维能力,因此Etu采用一体机的形式,把企业IT风险降到最低。相比同样采用一体机形式的Oracle,查礼博士认为,Etu有更好的灵活性,是专门定制的产品,而Oracle产品的通用性缺乏灵活度。
小结
在与三位的互动中,记者了解到Etu Appliance是国内首款Hadoop一站式解决方案,以一种较为灵活的方式将Hadoop技术进行普及。相对于Hadoop的开源,Etu Appliance的成本相对较高,对于不熟悉Hadoop技术的企业可以买来部署,以最快的方式享受到Hadoop的便利。Hadoop还有很多功能等待被挖掘,并不是Hadoop本身不具备这些能力,而是缺乏相关工具。
${PageNumber}
提问:
我问一下查博士,目前为止我跟踪了Hadoop一段情况,我个人感觉,Hadoop目前为止最常用的场景有两个,一个是把它作为一种存储,相当于一种数据库一种存储一些非结构化的数据。第二个,通过它的处理把数据换到数据库里,进行商业智能分析和挖掘,您觉得我的理解对吗?这是Hadoop的主要用途吗?
查礼:
应该说没错,但是我自己的理解,光它拿做存储只用了它一半的功能。它的特点是存储和计算组合在一起,融合在一起,如果用在一个方面都不是一个比较好的实用的典型案例。
第二个问题,这么用主要是因为有一些功能,Hadoop目前还提供不了。并不是说它没有这个能力,是没有这方面的工具。如果作为一个公司来讲要尽快能够产生生产力的话,肯定是有这些东西,把它尽量组合在一起。这是它的价值取向。所以说,像Facebook这种做法,我讲的是09年的时候的材料,那时候还没有很多BI的工具在Hadoop上面,能够Work,能够运行。主要是因为这个原因,并不是Hadoop本身不具备这个能力。
提问:
在你看来Hadoop这款软件或者分布式计算平台也好,应该怎么用?还有其他用途吗?可以举几个例子吗?
查礼:
我先简单讲一下,最好的用途,因为它本身的起源是来自于Google,所以我自己认为它最适合的就是文本的处理,就是非结构化、半结构化的。文本是最核心的,用别的不是不可以,比如做其他的开发,比如多媒体的处理不是不行,但是说实在的它并不是很适合,目前看起来。
所以我们现在感觉到类似像现在的这种系统,逐渐的向专门化发展。就是我这个系统够大可以从上到下的重新构建一个,只做这一件事的对应的架构比如视频或者多媒体处理,有可能会出现另外一个Hadoop专门做这个事。
可想而知,Google刚出来的目前只做搜索那一件事,Google有上百万的服务器,但是它就只做搜索,就做这一件事。这么多台机器完全有可能从硬件、到软件、到操作系统都可以达到的系统,这是一个很明显的趋势。所以我的观点就是要干好一件事,如果那个事够大,可以从上到下自己全部去干。
蒋居裕:
我举一些例子,以电信行业来讲。亚洲地区目前台湾、香港、泰国、印尼、新加坡、Etu都已经去过这些地方。用我们东西最多的就是电信运营商,电信运营商用我们的时候第一个是做IP溯源的工作,就是找出用户的真实身份。另外一种是AP溯源,就是不同的应用软件,他要找出企业里各种不同德应用背后的使用者的动作。现在有一些安全监控软件有办法,在应用软件上做的动作写日志,我们就是负责分析处理日志,以便哪个时间点哪个用户做了哪些应用。这些追溯不是主要来自于安全上的东西,现在因为3G移动网络、上网的行为很多,所以电信商很想在上面有一些价值的提升,所以他想了解他的哪个用户在哪个时间点最常上哪个网站,而且是用手持网站。光把这个搞清楚就有很大的理解,他可以根据用户的理解跟广告商合作。
比如金融行业保险、银行,他们有很多文件扫描存起来的图档,比如一个保险业,一个客户签一张保单,保单要扫描存起来,投保期间跟客户往来行为,都跟保单有关的,这些资老都会扫描存起来,这么多用户日积月累,这些图档的数量会达到上亿,有一个事件检索的时候要能很快的找出来。这也是一个典型的案例。
比如制造业,尤其是高科技制造,比如台基电,他们现在也用Hadoop做这样的事情,因为传统上的生产设备,在生产过程轴会把运作的数据往外送,传统商会用数据去接,当Oracle撑不住的时候,现在有了Hadoop技术,他们就把这些资料往Hadoop这边存储,处理。他们的目的是提高利用率。
提问:
怎么处理呢?
蒋居裕:
这里有一些仪器设备的参数,这不是我们自己理解的,他们自己的工程师自己知道。我们负责的只是让Hadoop集群运作环境能够长时间完整无误。但是至于它在上面做的自成分析是他自己完成的,这个我们没有办法介入。
提问:
这对用户要求太高了,用户需要了解Hadoop才行。
查礼:
他们所扮演的角色就是打掉中间的这个沟,你不用太知道Hadoop是怎么样的原理,用户直接对接他的业务就可以。而且原来做数据就是两种形式,一种是文件,一种是数据库。Hadoop应该是给你增加了一种方式,增加了一种存储数据的手段。因为原来不管大大小小的应用后面都接一个数据,其实可以想象你的需求多么的多样,为什么只有一种技术在后台做处理,为什么会这样?肯定会有一些技术的变革,适应应用的需求。
而且目前主要问题是,原来你的数据量都很小,所以可以说就这两个可以处理了,现在数据变的特别大,而且每年增长都是翻番的。数据库这样的东西原来价值取向就是做成一个很通用的东西,在上面干什么都行。这样的一个东西不太可能去应对这么大的数据量,必然会变成各种各样的系统。这相当于是一个东西要变成很多种东西,每一种新的东西会应对一个更极端的处理。
今天讲的一个是Hadoop本身,可能Hadoop上面还有很多组成部分,这些组成部分应对的场合是不太一样的。不可能拿这个东西再去应对它并不适合的应用,这是不太可能的。每一个“小玩意”对应的都是很细的,很小的。
蒋居裕:
我比较愿意强调,从整个世界Hadoop技术在每个不同地区采用的状况来看,在亚洲地区,我觉得现在还不是说我卖一个标准的Hadoop一体机,企业就能够直接用的时候。需要一个解决方案,而且是一站式的,我把原始数据接法弄好了,处理完去哪里也接好,企业可以直接用。他希望我们帮他建新的应用,或者希望存到原本ERP能够借鉴的数据库都可以。用户把需求明确,我们把整合的工作都做完,之后就需要增加节点就可以了。
提问:
现在有解决方案吗?刚才就介绍了产品本身?
陈昭宇:
我们刚才介绍只有一个产品,但是Etu品牌并不是卖标准化Hadoop的时候,我们有一个精准的推荐引擎,它有一个特殊的应用,是涉及很多中国很多电子商务网站,你们在这样的网站上购物,点了这个,下面会推荐你大概看到的东西,你买过什么,搜索过什么?这样的东西我们会它变成一个精准的推荐引擎。电子商务网站可以直接把数据导进一体进,他需要设定几个参数,比如需要关注用户的哪些行为,比如点击、放入购物车、搜索,有一些动作你可以挑选,挑选好之后这个引擎可以根据你每天实时进来的数据,它会每个小时一直帮你计算,然后选择一个推荐的列表,再放到产品的一个数据库,让前台购物网站可以直接取得这样的推荐清单。这跟一般的传统差别是,很多电商在做推荐的时候是人为的,他做的推荐可能不是你喜欢的,是他想卖你的,但是可能不是用户真正需要的。所以他们后来发现我也推荐了,首页也到处都放了,可是就是看不到营收的增长,所以利用Hadoop这样的技术可以从客户真实的流量行为和点击行为里面知道客户在找什么,从而提高营收率。
中国电子商务网站使用者随便上,日志量太可怕,一般数据处理不了,Hadoop出现以后,很多互联网公司发现这是一个很好的工具,所以才让这个工作变得可能。
我们在中国以外的地区,在海外,比如说像IP溯源解决方案我们也已经都做了,这个工作首先要知道你上的网官和电话号码内部IP地址的介入,另外内部路由户有内部和外部IP的定制,这两个关联起来,每一家用户都是一样,我们可以做成标准的解决方案,花几个礼拜把这些数据导进来,基本可以用了。
提问:
为什么咱们采用一体机的形式为用户提供数据分析?
陈昭宇:
因为Hadoop,即使是Oracle数据库也有一体机,企业存在的目的是为了赚钱,为了盈利。所以他宁愿投入最多的人力成本在一些应用上,比较少的愿意投入在IT上。可是数据库的规模越来越大,这需要很专业的IT让这些机器可以跑,所以不只是软件的问题,也不只是硬件的问题。Hadoop以现在来讲,它的应用已经有人看到了它的价值,可是缺少运维,除非互联网公司,其他大部分公司都没有这个能力。所以开始去公司装就遇到了问题,我们希望用一体机,看到刚才的示范,装的一体机比装一个Windows还要简单。我们想替客户解决的是,当你有一个Hadoop的时候,你的机器坏了怎么办?你好不容易培训了一个IT人员能够装它,这个人走了怎么办?一体机的概念就是所有的逻辑都在这个盒子里面,那个盒子在你家,人走了,你的生意也可以照样做,就是把企业IT风险降到最低。你保证机房有电、有网络、有冷气,工作就可以完成。
提问:
因为现在Oracle也在推一体机,去年就热推,我们今年刚刚进入中国市场,跟Oracle之间肯定有一定的竞争,我觉得技术上大概差不多,会不会说主要的竞争是在价格方面?
第二个往来想问一下蒋总,咱们的中文名是意图,在中国市场之前也做了很多调研,从调查结果来看,目前中国市场用户需求集中体现在哪些方面,我们的产品对于解决用户的问题优势是什么?
蒋居裕:
关于跟Oracle的竞争,大家可以比较一下价格到底谁家的便宜,我不太想讲这个一体机单价是多少,为什么?我们还是包括解决方案一起在卖这个一体机的。所以除非把解决方案直接拿出来苹果对苹果这样去比,然后软硬件加起来,一台下来是多少钱,这可能是你要想得到的答案。但是现在我不知道具体实施什么解决方案,所以对这个事情我是没有一个数字的。
第二个问题,我们进军中国市场对这个地方的调研,我们现在还是认为有几个行业特别想要着重的。一个是电信,因为它天生就有大数据。第二个是保险和银行这种金融服务业。再一个是电子商务。我们有一个精准推荐这样的应用可以直接体现。
还有一个就是广泛的线上服务业,就是互联网企业。可是各位注意,不期望我们Etu Appliance能够卖到淘宝,卖到腾讯这样的大型互联网公司,这些不是我们的目标客户。互联网公司里面还是有分技术能力一级、二级、三级的公司,我们面对的是可能技术能力不是第一级的,但是他比较愿意采用外面的解决方案提供商给他一个帮他省力气,但是能够增加商业价值的这一类型的互联网公司。
查礼:
Etu和Oracle定位上,从现在介绍来讲可能还是不太一样。Etu这边取向性比较强,可能Oracle产品也就一些相应的方案,但是我觉得相比较而言,Etu这边的的灵活度好一些,毕竟是为这个专门定制的。Oracle这样的厂商还是通用的,我有一套东西谁都可以用。
蒋居裕:
如果你从硬件规格来看,也许是我搞错了,我从读到的Oracle一体机资料来看,它是Unix机器,不是我们一直强调的X86。
提问:
一体机这个就不关键了。但是它里面的Hadoop,是和谁合作的?你们的?
陈昭宇:
也是,同一个。
蒋居裕:
但是我要再一次强调,我所知道的Oracle一体机是“大家伙”。基本的起跳价格本身应该还是有一定的规模的。
提问:
它起点会比较高?
蒋居裕:
我们主节点加上工作节点就是这两个。
提问:
我们目标就是中小企业?
蒋居裕:
我们目标客户群是大企业,有大数据。但是一开始不想直接做大规模的部署,只想做一个POC看看有没有效果,真的有了再扩充。我们一次扩容都是一个U一个U的可以扩容。
提问:
咱们精诚云中心是什么?能简单介绍一下吗?
蒋居裕:
精诚也许对于国内媒体来讲不太熟悉,但是在台湾它是一个老招牌的IT服务公司,是台湾最大的IT服务供应,也是一个上市公司。它在台湾、中国、香港、泰国、新加坡、印尼,都有分公司或办公室。所以整个亚洲地区大概有3000名员工。因为云计算潮流之下,IT服务公司一定要想办法在这个方面有一些琢磨。所以我们在去年成立了云中心,这个云中心是直接我汇报集团老总负责。这个云中心有一些自己的解决方案,也有传统企业会用的跟云、和云计算有关的产品。我们不能只是销售代理产品,还是应该开发一些云端的开发和服务,所以才有这个公司出来,是整个集团跟云相关的策划单位。
有了这个中心,我们会考虑,我们既有代理的东西,我们还可以开发一些服务方案,除了这些我们还可以做什么?根据我从前的工作经历,Big Data这块变成了我跟老总讨论的很重要的议题。因为我们精诚代理splunk三年的时间,从这边我们了解到半结构化数据看起来有一定的市场需求。可是现在数据大到处理起来价格很高,在大数据题目里我们是不是可以把Hadoop这个主流技术放进来考虑?所以才有了这个团队,有了Etu这个品牌。我们去年9月决定要做Big Data这个新的事业,可是今年3月我们就把品牌新的产品上市了,为什么可以这么快?是因为我们找来的团队成员也很多比Hadoop以前就处理大数据的经验。这样我们才有一个很棒的自动部署的机器,这些都是核心团员对Hadoop和Big Data事业有热情,所以我们才有可能在很快的时间里把这个产品做出来。其余的已经规划到明年了。
提问:
数据中心有什么标准,还是所有的都可以?
陈昭宇:
这个一体机不需要跟现在的存储系统做关联,因为它是使用Hadoop技术。比如说标准是一台工作节点是8G,4G放的关系型数据,如果4G满了可以再加一台,还不够可以再加一台,就是这样扩展的。
查礼:
加的不光是处理,还有计算。
蒋居裕:
是存储和计算在同一个实际的节点上。
我们其实可以把数据分成三种“温别”,一般的企业应用ERP、财会管理的这些应用都跟信息交易有关,我们归类成在线的数据,这个处理一般的就是Hot Data,因为它要随时在线。另外一块是Big Data,就是实质性更高的Hadoop解决上,可以用Big Data解决,如果有一个比如处理量很大,一天解决完就可以,传统的没有办法解决,我们一般叫做“温Data”,它可以处理三个月、半年或者两年的数据,都可以在Hadoop里处理,如果超过两年的不在Hadoop处理的,可以放到传统的存储机制里去,它只存不计算。
提问:
咱们从云计算做大的数据,现在从大数据做Hadoop,我想了解咱们的产品跟云计算有什么联系?
陈昭宇:
云计算是一个很广泛的议题,包含很多。因为现在以运营商和服务商来讲,提供云的服务。比如说微博,现在有这么多的用户,整个后台系统,包括分前端WEB服务器,这个很多网站可能会使用虚拟化的方式,很快的可以扩展出去,这是云计算的一环。这些WEB服务器应用给客户层,会留下大量的日志,你注册了微博他会推荐你新的朋友,这些就是要用Hadoop这样的技术,把大量的信息采集过来,要放到一个够大的存储,够行的有运算能力的地方,然后才可以进行离线分析,结果出来了才可以回到前端应用。Hadoop是大的云计算议题里需要特别关注的,包括数据处理、数据挖掘和资料分析。
蒋居裕:
我们已经知道Hadoop技术起源是来自Google发表的论文,后来开源,雅虎赞助这个开源的项目。我们必须先定义Google、雅虎,Facebook这些都是云服务公司,而且是超级的云服务公司,Hadoop是来自超级云服务公司,他们为了让客户体验做的更好。大家不会喜欢在雅虎上面打一个关健词做搜索,结果出来的很慢,他们就是利用Hadoop这样的技术让我们觉得用户体验不会觉得慢。
回头,这些行为资料,我们举例了做关联推荐云服务的服务,既然这些是来自云服务的使用行为,转化是告诉你看这个东西以外还可以看什么,所以技术来自于“云”,要服务的也是“云”。
提问:
刚才说了加数据可以加一台机器,如果利用云计算可以不用在一体机里加设备了。
查礼:
比如我是私有云的用户,你加不加机器我不知道,我只知道我处理数据量的性能提高了。从这个角度来说,技术上是可以包含这个特性的。
蒋居裕:
因为这个技术是来自于这些云公司,这些云公司除了处理数据之外,像我们知道Google所谓做SASA服务,不管是社区、邮件、地图或者是文件,这些服务都是给一般的用户去用。他们都是用X86商用机器,这么大的数据量可能需要100万台,每天都会有硬盘死掉,重点是硬盘死掉用户数据会不会丢失?服务会不会停下来?不会,因为他们软件技术很厉害,他们企图用软件技术做到分布,让硬件出错的时候数据不会丢失,机器不会停下来,很快的替换,很快的回来。
查礼:
之前容错是用硬件的方式保证不出错,但是实际上比如说背板坏了,再修改,数据也全丢了。包括我也听说过,IBM给银行做的项目也出现过这样的问题。现在技术发展一个是Google是用纯软件的方法保证,虽然看起来浪费了存一些副本,但实际上这种方式更好。
陈昭宇:
我前几天看到一个统计,2009年Hadoop运行10个集群,总共2万台服务器,上面共有32.9亿个区块,其中仅丢失650个区块,这650个中仅有19个是完全无法修复的,所以从数据量计算,它的可靠度达到99.99999%,这是非常非常高的可信赖度了。
查礼:
它是现在用的方式非常便宜,现在一般互联网的方式是两U计价服务器配三块盘,整个一台机器价钱也就是几万块,它用很低的成本能达到很高的可靠性。这是它的技术创新的关键。如果说都是钱堆出来的,这就不稀奇了。
蒋居裕:
所以企业要越来越熟悉这个世界上有另外一种方式在架构IT。虽然他们现在不熟悉,我们会慢慢让他们熟悉。
提问:
因为Hadoop架构现在是主重节点的架构,万一主节点坏了怎么办?
陈昭宇:
这是Hadoop目前为止我可以讲它唯一的弱点,为什么一开始架构会这样设计?如果一开始设计这个东西的时候Hadoop不是提供在线处理,通常是处理离线数据。所以主节点上是不保存任何资料,所有资料都放在工作节点上,主节点崩溃不表示资料不见了,只要主节点重新恢复就可以继续应用。因为主节点不是做在线分析的,如果主节点失效一两个小时他们认为可以接受,但是结构比较简单,所以第一版就开始这样做。
但是后来状况慢慢改变,很多人拿它来做运营或者在线服务,现在Etu可以再加一台主节点,它不是动态负载均衡,可以两个主节点并行。应该今年下半年官方版本会有主节点高可用性的设计。我们比Google早一个季度可以提供这样的应用给客户。
提问:
刚才谈到了数据量的问题,但是事实上数据量本身不是数据库,对Oracle数据库来讲数据量不是问题,用大数据主要原因我认为是数据类型太复杂?
蒋居裕:
我刚才说了三个“V”的PPT,是可以画三个椭圆的。
陈昭宇:
举一个简单的例子,很多电信业都有非常大的数据仓库,数据量不是问题,但是问题是这些数据库的数据是重合的,一定是从前端设备采集进来的,经过一些结构化的过程,比如通过一些脚本处理这些数据。很多电信公司可能有不同的电信应用用的不同的数据公司,这些必须要统一,就是极大的问题。有一个问题是数据量及时进来,每天录一次库,所以报表一天才能看一次,今天看昨天的数据。所以如果从数据库观点来看不是数据库的问题,可是从端到端来看就是有一些问题需要解决。非结构化或者海量数据其实Hadoop就是一个很适合的工具。
查礼:
数据量也是问题。比如GPS-LBS系统,GPS系统一秒钟更新一个数据,每个人手里都有一个设备,假设我有一个应用,实时跟踪任何一个人的行为,这个数据量非常大。我们做过一个实验,My-SQL数据库,撑到1000万以上,慢的不得了了。如果GPS数据容易达到这个数据量的,每秒钟发一个数据的。
另外一个场景,现在数据计算,一个是数据大,另外一个要快。快不是说处理速度快,是整个数据生产过程,比如说从一天缩短到秒级,这个事我们做不了,用数据库绝对不可能。因为我今天的PPT时间关系少了一张,就是ETL过程,就是数据差距到入库可以查到时间是一天到两天,现在改成10秒钟了。这些都是新的技术,必须要做一些技术上的变革才有可能做到时间间隔从天到秒的变革。
蒋居裕:
大数据应用非常强调的应用场景就是提高客户满意度。很多电信运营商把传统的打电话行为数据放到数据仓库里,可是因为这个过程越来越多的数据,客户有一个问题,比如现在为什么电话打不通,或者短信发不出去,打到客服中心,客服中心要一层一层的找客户的问题出现在哪儿。如果回到处理时间一天才有办法更新一次,那客户会定在那里了,客服会说你的原始还没有处理,我不知道哪出了事情。有时候企业想象Hadoop能带给他什么价值的时候,不用想什么应用,光是把做的环节有所提高就是很有价值的。
陈昭宇:
比如电信传统的帐单计算过程,比如有一些CDR数据进来,现在是先算出每一个人的秒数,总通话的秒数,配合什么时段、什么费率。现在台湾最大的运营商,一个用户分六批算帐,一个月,每算一个要花6到8个小时,我们做的方式是把从CDR这边进来,用Hadoop计算秒数,我们用了大概是12个节点,150G的数据用了(1.5小时)。
查礼:
现在那么多应用,能把他的用户体验从天提高到小时,已经有一大把的事情要做了。比如移动他们自己就有这样的例子,以前做省一级的经分,原来是小型机,还不能够用全量数据,只能采样数据,现在不用小型机,用一个PC服务器,成本比那个小型机少,用全量数据,比那个时间还少,这都是Hadoop能够做到的。
蒋居裕:
我们针对中国市场是更能凸显我们的价值了。
回过头来我们现在定义的用户方案和用户对象,他们能不能很快的有知觉,我们跟他讲的事情,对他来讲,什么时候他可以想要开始做了。
提问:
现在在国内有案例吗?
蒋居裕:
不能说太多。
(结束)