技术开发 频道

Top10大数据分析厂商产品总览-上篇

  【IT168 评论】大数据时代的到来已经开启了人类社会利用数据价值的另一个时代,每天人们的日常工作生活都会产生巨量的数据。对于一个企业来说,这一时代的来临既是机会,也是挑战,商机利润无处不在,却也瞬息万变,决策力和效率一旦下降,很有可能被淘汰。移动互联网、物联网产生了海量的数据,大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。然而大数据厂商如雨后新笋层出不穷,质量也参差不齐,对于企业来说如何挑选大数据分析提供商呢?下面本文为您梳理国内热门大数据分析提供商及其主要产品。

  一、IBM

  产品类型:

  1.基于Hadoop:

  IBM BigInsights for Apache Hadoop——在企业平台上提供符合大数据分析需求的分析功能,性能高、易用性强,支持大规模部署,可加速实现价值。

  IBM BigInsights on Cloud——在IBM的全球云基础架构上提供Hadoop即服务,提供与在本地部署InfoSphere BigInsights一样的功能,且无需本地基础架构即可利用大数据分析,随需扩展,提供高级工具加速现实价值,安全性较高。

  2.基于流计算:

  IBM Info Sphere Streams——高级计算平台,扩展企业现有系统价值,帮助应用程序快速摄取、分析和关联来自数千个实时源的信息,数据高吞吐率美妙数百万事件或消息。

  IBM Anonymous Resolution——提供匿名地确定,使金融、政府、执法、医疗、工业协会等行业能够进行匿名协作,且协作有高安全性。在提供身份识别的同时,加强个人隐私保护,审慎记录是否重叠,并可以提供跨组织风险管理。

  InfoSphere Global Name Management——利用特定文化的姓名数据和语言规则,帮助管理、搜索、分析和比较多文化的姓名数据集。对文化传统、相关国家、性别和姓名解析进行识别与分类,从而支持可行的业务决策,处理多国语言音译。

  InfoSphere Identity Insight Solutions——可应对威胁和欺诈的实时身份解析和分析平台。帮助组织和企业识别威胁、欺诈和风险并降低其发生率。功能点:身份解析、关系解析、复杂事件处理。

  IBM对于Hadoop的研究5-6年前就已经开始,其研究成果涉及很多方面,InfoSphere是其2011年推出的产品,是专门针对大数据分析的平台产品。平台包括BigInsights和Streams,两者互补,BigInsights对大规模的静态数据进行分析,提供多节点的分布式计算。Streams采用内存计算方式分析实时数据。

  BigInsights可与DB2、Netezza等集成,是更适合企业级的大数据平台,并且IBM对其做出了很多改进,尤其是架构方面,使其分析能力更高,更能适应企业级需求。BigInsights对IBM推出的GPFS SNC平台进行支持,以更好的利用其强大的灾难恢复、高可靠性、高扩展性的优势,没有单点故障,让整个分布式系统更加可靠。

  IBM是经典老牌科技厂商,其信誉及产品性能和安全性都十分有保障,但价格在行业内也属较高档次,使用其产品的大多是大型公司及金融政府等领域的企业单位。其大数据分析解决方案比较全面,如果对信息质量、大数据处理效率及安全性各方面要求都比较高,IBM的产品比较适合。

  经典案例:

  1.IBM帮助腾讯网为中国球迷创造全新的观赛体验

  2014年巴西世界杯,各大媒体争相报道,市场竞争愈演愈烈,腾讯网若想脱颖而出,需要给球迷们全新的观赛体验。在过去,中国球迷看到的赛事报道,都是媒体主导的报道方式。而这次报道,腾讯网借助IBM SoftLayer云平台,快速部署大数据分析所需的 IT 基础架构,实时抓取了海量的中国球迷社交数据。基于Watson技术的社交大数据分析平台,在抓取社交数据的同时,还融合了语义分析技术,能够准确挖掘出亿万中国球迷的观点与喜好,并融进腾讯网的世界杯报道中,开创了赛事报道的新模式。腾讯网在 2014年巴西世界杯期间,页面访问数量增长了54%,体育文章点击率增长 134.5%;

  2.意大利帕马森雷佳諾干酪同业公会通过大数据分析来鉴别仿冒的干酪

  意大利帕马森雷佳诺干酪同业公会成立于 1934年,是一间防止造假或无证生产帕马森雷佳诺干酪的质量监控联营公会。过去,判断干酪的真伪是一个极为耗时的复杂过程,需要手动抽查 600多家乳品店。而现在,IBM 的大数据分析解决方案提供的条码标签和传感器功能,让其能够有效监控日常生产与产品,从而帮助他们准确判断和追溯每批产品是否纯正。据某调查分析,一家普通公司每年因为被欺诈就会损失5%的年收入,全球每年因为被欺诈损失了3.5万亿美元。

  3.美国迪凡斯动物园使用大数据分析来预测游客行为

  以前,迪凡斯动物园和水族馆只能凭借以往的经验猜测每一天的游客数量,并决定聘用多少员工以及准备多少物资。现通过IBM大数据分析解决方案,他们可以将移动端验票及天气预报等多个不同来源的数据关联在一起进行综合分析,实现了对游客数量的精准预测。同时,从这些数据中获取洞察,帮助他们能够更好地预测游客需求,并且做出更加有效的业务决策,让游客在每一次游览中都能获得满意的服务。

  二、Oracle

  产品类型:

  Oracle Endeca Information Discovery——提供日常决策的数据探索功能,帮助组织快速浏览所有相关数据,整合不同系统的结构化与非结构化数据,自动整理信息搜索、发现和分析。

  Oracle Advanced Analytics——将Oracle数据库扩展为高级分析平台,将企业分析应用与BI环境无缝集成,支持启用广泛性预测分析,并可以导入第三方模型。分析打分速度快,部署灵活、成本较低。

  Oracle Advanced Analytics通过两个主要组件将Oracle数据库扩展为全面的高级分析平台:Oracle R Enterprise和Oracle Data Mining。它是全面的实时分析平台,可洞察重要的业务事项,如客户流失预测、产品建议和欺诈警示。客户可将算法应用于数据所在的数据库,从而随着数据量的增加轻松扩展分析。使数据分析师能够直接但受控地访问Oracle数据库中的数据,在保证数据安全性的同时提高数据分析师的效率。无需移动数据,且能够在更短时间内将“原始数据”转换为“可操作的信息”,从而降低数据分析的总体TCO。

  Oracle Business Intelligence Foundation Suite——全面、市场领先的现代商务智能平台,帮助企业快速掌握与业务相关的更多信息,推动创新和掌握竞争优势,使组织从更多数据中获得更多洞察,从而推动收入增长。它以采用集成架构的商务智能为基础,为即席查询和分析、仪表盘、企业报告、移动分析、记分卡、多维OLAP、预测分析等功能提供了业内非常好的的平台。这一针对定制和打包的商务应用而设计的支持技术可帮助组织推动创新、优化流程并提供极致性能。

  Oracle实时决策——一个适应组织自身发展规划的管理解决方案,是图像、产品、服务一条线的业务完整流程。

  OracleExalytics商务智能云服务器——商务智能软件和内存中数据库技术构建而成,该系统经过优化,可提供快速分析,提升智能、简单性和可管理性。高级数据可视化和挖掘,可从大量数据中抽象出具有可行性的洞察。适用于发现、商务智能、建模和规划应用的快速解决方案。

  Oracle Big Data SQL——大数据SQL,是大数据管理系统重要的组成部分。它打通了数据孤岛,并简化信息访问和发现过程,可以帮助客户跨Hadoop、NoSQL和Oracle数据库运行同一个SQL查询,从而最大限度减少数据移动,同时提高性能。Oracle Big Data SQL在Oracle大数据机上运行,可与Oracle Exadata数据库云服务器配合使用。将关系和非关系型技术整合到单一架构中,并引入业界标准数据访问语言SQL,因此简化了企业对大数据的访问。

  Oracle Spatial and Graph——提供3D和Web服务支持功能,用于管理所有地理空间数据(包括向量和光栅数据、拓扑和网络模型)。Oracle Spatial可与Oracle Locator协同工作,后者是每个Oracle数据库版本中都具备的一项特性,提供了定位众多业务应用程序所需的映射功能。

  Oracle R Enterprise——Oracle R Enterprise与R语言集成,可处理大型数据集,并可以与OBIEE集成。R语言主要用来进行数据探索、统计分析、作图的解释型语言,其运算方面的能力较强。集成可发挥数据库的并行优势,速度更快。

  Oracle是目前国际排名第二大独立软件公司,是第一个跨整个产品线(数据库、业务应用软件和应用软件开发与决策支持工具)开发和部署100%基于互联网的企业软件的公司。Oracle在数据库方面有很强优势,且它的产品线完整,产品关联性较强,比较适合整套方案使用。Oracle解决方案在医疗方面也有很完整的体系,用户众多。其价格同类也相对比较高,用户多是大企业机构。

  经典案例:

  1.Oracle助丰田应对召回危机

  丰田是全球汽车制造商,为提升业务质量和效率,丰田必须降低保修成本和检测正确时间,它渴望开发新的产品质量分析系统,以迅速应对源于2010一个庞大产品召回事件的危机。甲骨文为其提供了一套整体解决方案,为丰田公司产品质量内部系统的数据提供一个通用接口,为丰田质量工程师提供来自不同车辆配置系统、客户呼叫中心、系统保养索赔、客户调节小组和服务中心等的数据提供搜索功能和向下钻取。提供搜索引擎界面、过滤器,允许用户查看产品质量数据,这在以前是不可能实现的方式。此方案降低丰田汽车投产到市场的时间80%,每年撤销数百、数千小时最终用户的等待时间,在相关的系统中能使工程师快速导航到交易警报。

  2.Oracle助UPMC打造个性化医疗

  匹兹堡大学医学中心(简称UPMC)是美国领先的非营利性医疗系统,也是全美最知名的学术研究医学中心之一。 UPMC利用Oracle大数据平台打造个性化医疗,使用Oracle Exadata、高级分析和特定用途的应用构成了高性能平台,收集分析病人医疗数据等内容,帮助其实现了个性化治疗,并大大改善UPMC的医疗卫生成果。Oracle在医疗行业有多套完整解决方案,包括健康档案、医疗分析和研究分析等,其临床数据挖掘等方面都很有优势,并且合作客户众多。

  三、Google

  产品类型:

  1.基于Percolator

  Caffeine——增量处理索引系统,取代MapReduce批处理索引系统,搜索更快。

  Colossus——专为BigTable设计的分布式存储Colossus,也被称为GFS2(二代Google文件系统),它专为建立Caffeine搜索索引系统而用。

  2.基于Dremel系统

  BigQuery——Google推出其强大的数据分析软件和服务 — BigQuery,它也是Google自己使用的互联网检索服务的一部分。Google已经开始销售在线数据分析服务,试图与市场上类似亚马逊网络服务(Amazon Web Services)这样的企业云计算服务竞争。这个服务,能帮助企业用户在数秒内完成万亿字节的扫描。

  3. 基于搜索统计算法——Google推出搜索引擎的输写纠错、统计型机器翻译等服务。

  Brand Lift in Adwords、Active GRP——Google的趋势图应用,通过用户对于搜索词的关注度,很快的理解社会上的热点是什么。对广告主来说,它的商业价值就是很快的知道现在用户在关心什么,他们应该在什么地方投入一个广告。以帮助广告客户分析和评估其广告活动的效率。

  Dremel被设计用来管理非常大量的大数据集(指数据集的数量和每数据集的规模都大),而PowerDrill则设计用来分析少量的大数据集(指数据集的规模大,但数据集的数量不多)时提供更强大的分析性能。

  4.PowerDrill

  Dremel可以在3秒钟内查询一个P的数据。PowerDrill虽不能处理这么多数据,可能应对的量也不小了,而且它的处理速度更快。PowerDrill可以在30到40秒内处理7820亿个单元的数据。Google说,这比Dremel的方式“高好几个数量级”。

  PowerDrill设计用来分析少量的核心数据集。其数据存于内存,PowerDrill做了组合范围分区,分析时可以跳过很多不需要的分区(真实应用统计可以跳过92.41%的分区)。PowerDrill用普通关系模型。PowerDrill数据要load,增加数据不太方便。

  Google身为世界几大搜索引擎之一,一直致力于互联网搜索、云计算等领域,其衍生的大数据服务在搜索方面十分有优势,尤其在广告服务、统计等领域。其搜索引擎、大数据处理相关方面的技术很成熟,但大数据方面的产品及解决方案覆盖领域没有十分完整,适合有特定需求用户使用。

  经典案例:

  2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

  四、Amazon

  产品种类:

  1.基于Amazon Web Services(AWS)

  Big Data Analytics Options on AWS——利用AWS可轻松预配置所需的存储、计算和数据库服务,以便将这些数据转换成您的企业需要的信息。同时,AWS 的数据传输服务可以快速地将大数据移入和移出云,例如 AWS Direct Connect 和 Import/Export 服务。而且,进入 AWS 的所有入站数据流量都是免费的。

  2.基于流计算:

  Amazon Kinesis——一项托管服务,可实时处理流媒体大数据。Amazon Kinesis支持的每秒数据吞吐量为数兆字节数据到数吉字节数据,并且可以通过无缝扩展处理来自成千上万个不同源的流。Amazon Kinesis旨在以经济节约的方式提供高可用性和耐久性,使用户专注于利用数据,以更快的速度、更低的成本做出决策。

  3.基于Hadoop

  Amazon Elastic MapReduce (EMR)——EMR在 Amazon EC2 上提供Apache Hadoop框架作为易于使用的托管服务。利用 Amazon EMR,用户可减少查询,利用广泛的Hadoop工具生态系统,同时部署到高度扩展、安全的基础设施平台。在云中执行大数据分析作业,让 Amazon EMR 来完成Hadoop集群的管理工作。

  经典案例:

  1.NASA/JPL的沙漠研究和训练研究

  NASA Jet Propulsion Laboratory(美国宇航局喷气推进实验室)已开发出全地形六足地外探测器(ATHLETE)机器人。作为沙漠研究和训练研究的一部分,NASA/JPL结合其他NASA中心的机器人对ATHLETE机器人进行年度实地测试。在驱动机器人的同时,操作员可以依赖高分辨率的卫星图像,获取指导、定位和态势感知。为了简化卫星图像的处理,NASA/JP的工程师们开发了一个利用工作流并行特性的应用程序。NASA/JPL依赖Amazon Web Services (AWS) 完成此项工作。

  该应用程序构建在Polyphony之上,通过在本地机器上存储过剩容量并在超级计算中心存储备用资源,Polyphony与AWS云完美结合。Polyphony能够将各种资源融合在一起以实现共同目标。通过使用Amazon Simple Queue Service (Amazon SQS),NASA/JPL开发人员甚至只需编写一个类,即可在Amazon EC2上部署大量计算。

  2.助NOKIA打造数据处理平台

  电信巨头诺基亚公司用其Xpress互联网服务平台,在印度、亚太、非洲和南美等新兴市场提供移动互联网服务。它的平台上运行着2200台服务器,每日日志及日常收集数据量能达到800 GB。对于传统数据库来说这些数据量太过庞大,以至于诺基亚无法将其迅速分析生成所需报告。诺基亚通过将数据转移到亚马逊的AWS和Redshift平台,使用亚马逊的大数据解决方案,可以全面管理数据仓库,数据运算查询的速度是以前的一倍,使用商业智能工具挖掘分析大数据也使成本节省了50%。

  3.助Philips公司打造医疗服务平台

  飞利浦是荷兰公司,专注于医疗保健领域,产品包括消费者的生活方式、照明产品及其他服务。其公司的医疗信息解决方案和服务部门希望可以为全世界十几亿人的医疗健康服务,并且建立飞利浦自己的医疗解决方案:HealthSuite数字平台,而这些都是通过亚马逊提供的AWS网络服务来实现的。HealthSuite数字平台分析和存储病人的数据信息,并且收集研究了3.9亿图像和医疗记录,成功的为医疗服务提供了可操作的数据,这些数据会直接影响病人的护理。运行在亚马逊的AWS平台会大大提升其数字平台系统的可靠性、性能、和可扩展性,这使飞利浦能更好的适应其平台内容的增长速率,并且做出正确决策。

0
相关文章