技术开发 频道

Sybase VLDS 解决方案


【IT168 新闻】

    背景——海量数据的产生


    瞬息万变的现代社会需要企业及时对外界竞争环境的变化做出快速响应,数据作为企业信息的载体,必须为用户和企业应用提供实时灵活的访问,为企业迅速做出决策提供依据。然而,随着人类信息化程度的提高,数据已超出它原始的范畴,它包含各种业务操作数据、报表统计数据、办公文档、电子邮件、超文本、表格、报告以及图片、音视频等各种数据信息。因此,人们用海量数据来形容巨大的、空前浩瀚的、还在不断增长的数据。任何一个地方的企业都正在努力面对他们公司的数据库由于规模扩大产生的沉重负担,提高海量数据访问能力和业务分析能力的要求也变得越来越紧迫。

一、为什么我们需要海量数据

    海量数据是今天商业面对的一个现实,企业的数据库在规模上不断增长,虽然使用的技术也在不断增加,并且变得越来越复杂,但是数据增长仍保持着着惊人的速度。海量数据的存在具有必然性,企业的任何一个部门,都需要对海量数据进行操作。

    数据爆炸。如今,需要企业进行管理的数据正在以指数级速度增长。分析人员发现,公司收集、存储和分析的有关客户、财务、产品和运营的数据,其增长率达 125% 之多。各个方面的因素导致了数据的爆炸,如:网络应用增加了数据的增长速度;监控点击流需要存储与以往相比越来越多的不同的数据类型;多媒体数据也增加了对存储的要求;我们存储并管理的不仅仅是数字和文字,还有视频、音频、图像、临时数据以及更多内容,这些数据的增长速度也在不断地上升;数据仓库和数据挖掘应用鼓励企业存储越来越长的时间段内越来越多的数据。这些实际情况导致的结果就是数据大量增加。

 法规方面的要求。在会计丑闻的唤醒下,立法者和决策人施加了严格的新要求,几乎影响到全球各家大型企业。从巴塞尔协议第 2 号、Sarbanes¬-Oxley 法案和爱国者法案 (Patriot Act) 等,信息很清楚:法案要求公共公司遵守严格的金融记录保持与报告法规。如果公司不能及时、可靠地访问准确的财务信息,那么它们将面临罚款、调查、起诉、甚至更严厉的股东信心下降的威胁。这要求公司能提供对更多数据的不间断访问能力并进行更多的分析,这必然会延长数据的维护周期,增加数据容量。

 非结构化数据应用的需要。结构化数据是指诸如企业财务账目、客户信息、业务操作数据等具有明显结构化特性的数据。非结构化数据包括扫描文档图像、传真、照片、计算机生成的报告、字处理文档、电子表格、演示文稿、语音和视频片段等。根据业界分析报告,非结构化数据占有整个信息量的85%以上,数据量及其庞大,是信息资源管理的核心。同样,企业需要对非结构化数据进行存储、检索、过滤、提取、挖掘、分析等各方面应用。

 历史数据归档与访问的需要。一般来说业务系统是用来处理业务交易的,为了使这些关键业务系统的性能不会受到严重影响,往往业务系统只存放短周期内的的业务交易数据,大量的历史数据都被备份到磁带上,或者被转移到其他存储设备上静态保存,当对它们运行 SQL 查询时再把它们从档案环境中恢复出来。但是随着企业对数据的重要性越来越重视,以及数据分析、数据挖掘的应用逐渐普及,历史数据的访问将变得重要、频繁和直接。历史数据的不断积累,也对海量数据的存储、管理和访问提出了新的需求。

 数据整合与数据分析的需要。当前,企业信息的存放具有数据结构多元化、存储异构化的特点,企业的数据可能存储在传统系统、大型数据仓库或具有计费、订购、制造、分销或其他功能的数据运营孤岛上,因此会给访问带来极大的困难。数据整合与数据分析已经成为信息管理技术的应用热点。只有在有效的数据整合基础上,才能消除信息孤岛,降低有效信息获取的难度,通过对整合数据的分析和加工来获得制定策略所必需的信息依据。


二、传统的关系型数据库面临更大的挑战

    传统的关系型数据库在计算机数据管理的发展史上是一个重要的里程碑,这种数据库具有数据结构化、最低冗余度、较高的程序与数据独立性、易于扩充、易于编制应用程序等优点,目前较大的信息系统都是建立在结构化数据库设计之上的。

    然而,随着越来越多企业海量数据的产生,特别是Internet和Intranet技术的发展,使得非结构化数据的应用日趋扩大,以及对海量数据快速访问、有效的备份恢复机制、实时数据分析等等的需求,传统的关系数据库从1970年发展至今,虽功能日趋完善,但在应对海量数据处理上仍有许多不足。

    (一)缺乏对海量数据的快速访问能力

    当竞争对手在周五下午宣布了新的价格模型,你所在机构的总裁在周一早晨之前想要一份对你公司影响的分析报告,业务分析员想做的最后一件事情是花费20分钟等待整个表扫描和多表连接来获得“如果…会怎么样”的查询。因为没有经过优化的查询会耗费很长的时间;进行查询的用户,其需求需要按计划执行;多个查询会竞争CPU资源;并且业务需求经常被改变。所有这些都要求不断调整优化数据库或甚至重新设计数据库。

    (二)缺乏海量数据访问灵活性

    在现实情况中,用户在查询时希望具有有极大的灵活性。用户可以提任何问题,可以针对任何数据提问题,可以在任何时间提问题。无论提的是什么问题,都能快速得到回答。传统的数据库不能够提供灵活的解决方法,不能对随机性的查询做出快速响应,因为它需要等待系统管理人员对特殊查询进行调优,这导致很多公司不具备这种快速反应能力。

    (三)对非结构化数据处理能力薄弱

    传统的关系型数据库对数据类型的处理只局限于数字、字符等,对多媒体信息的处理只是停留在简单的二进制代码文件的存储。然而,随着用户应用需求的提高、硬件技术的发展和Intranet/Internet提供的多彩的多媒体交流方式,用户对多媒体处理的要求从简单的存储上升为识别、检索和深入加工,因此如何处理占信息总量85%的声音、图像、时间序列信号和视频、E-mail等复杂数据类型,是很多数据库厂家正面临的问题。

    (四)海量数据导致存储成本、维护管理成本不断增加

    新经济的趋势将会加速带动对海量数据需求的增长,以更少的资源完成更多的工作不仅是必须的,而且也得到了各界的广泛认同。GIGA研究表明 ROI越来越受到重视,大型企业都面临着同样的业务和IT上的压力,与以往相比,系统的性能/价格比更加受到重视。海量数据使得企业因为保存大量在线数据以及数据膨胀而需要在存储硬件上大量投资,虽然存储设备的成本在下降,但存储的总体成本却在不断增加,并且正在成为最大的一笔 IT 开支之一。另一方面,海量数据使DBA陷入持续的数据库管理维护工作当中.

    (五)海量数据缺乏快速备份与灾难恢复机制

    传统的数据库备份技术,如:通常采用的磁带备份方式,不能运用于海量数据,因为磁带备份将使备份时间增加,需要几小时-几天,影响生产,增加了备份的难度,使得备份/恢复变得缓慢而且不可靠,几乎无法在固定的时间窗口完成备份工作。另外,第三方备份软件的成本开销和复杂度,昂贵的实施,其中隐含的成本代价也是企业需要考虑的。因此海量数据安全显得异常重要,只有通过引入有效的备份、方便高效的备份恢复技术,才能满足海量数据安全的需要。

三、Sybase提供对VLDS的最大支持

    专注于信息管理和信息移动技术的企业级软件公司Sybase,致力于为客户提供管理企业内部各种复杂的海量的数据源的解决方案。其一系列的解决方案帮助数据密集型行业对来自于固定或移动数据源的结构化或非结构化的海量数据进行查询和分析,使企业能够更好的管理数据资产并将其转化为切实可用的信息。

    (一)世界领先的VLDS 引擎 - Sybase IQ

    Sybase IQ 采用了成熟的压缩算法,与传统的 RDBMS 解决方案相比,数据存储量可以减少 60-80%。这也就减少了物理存储需求和人员配备成本。经过独立的审核测试确认,存储 48 T 字节的原始输入数据,Sybase IQ 只需要 22 T 的物理存储空间。此外,Sybase IQ 比传统数据库更容易维护,而且不需要进行与时间和资源相关的调整就可以达到较好的性能。除了节约成本以外,它还可以更好地发现和分析信息,从而帮助组织机构防止欺诈、减小风险、发掘新的商机以及获得其他各种好处。

    (二)SYBASE Dynamic Operational Data Store (DODS) 动态运营数据存储解决方案

    数据的空前增长,需要访问数据的知识工作者的不断增多,以及实时取得信息的需要,这一切都对运营系统造成了巨大的压力。Sybase DODS 解决方案采用功能强大的复制技术,能够几乎实时地从运营系统获取数据,而不会干扰系统的运行。复制的数据存储在 Sybase IQ 归档数据库中,可提供比传统数据库快 100 倍的查询速度,而所需的存储空间却比传统 RDBMS 解决方案要少 60-80%。Sybase 的 DODS 解决方案可以迅速缓解公司海量数据的压力,使它们在保持原有系统性能的同时,还能安全地满足不断增长的实时自助业务分析的需要。




SYBASE DODS 从运营系统获取数据,将其复制到运营数据存储中,然后使用用户熟悉的、功能强大的报告工具快速访问数据。
用户实例:Telefonica Spain(西班牙电信)DODS系统、青岛海尔DODS系统、江苏地税DODS系统,等等。

    (三)SYBASE E-mail 与文档归档、检索解决方案 - 非结构化数据的有效运用

    Gartner研究表明:非结构化数据已经与传统的”结构化”数据同样重要,当今85%以上的商业信息是保存在非结构化数据中,而且这个发展趋势越来越快。相关法规的制定对公司E-mail系统信息及相关文档保存期的要求也越来越长。如何从三年内上万个邮件中搜索需要的内容以及附件包含的内容?如何将E-mail信息与数据仓库中数据进行关联查询?类似的需求将越来越多,SYBASE E-mail 与文档归档、检索解决方案能够快速地回答你的问题。


      
     强有力并且简单易用地进行交叉查询 Emails, Documents and Transactions

• 实时捕获 email 内容及附件信息,并传送到 IQ 中
• 实时把文档/媒体加载到IQ中
• 对文档信息进行快速 load/index 处理,客户端对其中数据、email、文档都可以进行关联查询

用户实例:United Health Care (store ANY type of medical data such as CAT scans, X-rays, regular photos(i.e JPEG) , spectrograms, EKG and others.)

    (四)SYBASE Dynamic Archive (DA)动态数据归档解决方案

    在典型的业务应用环境中,数据量每年以 125% 的速度递增。生产系统中高达 80% 数据处于非活动状态,它们却在不断地占用着昂贵的硬件、存储设备和维护资源,并且降低了应用性能。传统的归档管理方法是将数据移出应用环境,但这可能会损害数据完整性,从而使公司面临违反规定的风险。

    Sybase Dynamic Archive 解决方案专门设计用来满足其核心应用饱受数据迅猛增长之苦的企业的需求,为企业提供真正需要的东西:一种长期的、成本效益好的方法,能够从应用生产中消除非活动数据,同时在需要这些数据时,又能够持续实现无缝访问,它还在节省成本和提高性能方面提供了许多可量化的优势。


   
     用户实例:COSCON中远集运DA系统。

    (五)SYBASE 海量数据备份/恢复NonStop IQ解决方案 

    NonStop IQ 是针对海量数据的方便及时的 Disk-to-Disk (D2D) 备份/恢复解决方案:
    基本忽略数据库的大小,进行全库备份在秒级或分钟级就能完成;
    当发生灾难时候,瞬间实现由生产库到备份库的切换,以最短的宕机时间来进行恢复操作,TB级数据恢复时间 <60 秒;
    支持本地和远程的操作;
    不同于磁带备份,NonStop备份数据是动态可用的,备份的数据可以用于开发, 测试, DBCC检查, QA 等等; 
     比磁带备份更加可靠::立即对备份数据进行验证,备点数据库随时可以启动、使用;
    可以使用ATA磁盘替代昂贵的FC磁盘来满足成本节省的需要和信息价值非类存储的需要,比“传统的”磁带备份 & 灾难恢复具有更低的成本;
    在实际的生产中已有 +20 个客户在采用该方案 (from 200GB to 140 TB)。

    用户实例:Nielsen Media Research, AMEX, BizRate, SEC,广东移动IP网管,交行总行历史数据查询系统等等。

    以下为2005年Sybase VLDS排名前10名。表格中列出了裸数据存储大小,以及在Sybase IQ中数据库大小,这充分验证了IQ具有强大的数据压缩能力,没有数据膨胀。同样的裸数据大小,在其他传统的关系型数据库中,将有2-11倍的数据膨胀。




    以下我们列出了部分国内外VLDS的客户。

    1、Telefonica Spain(西班牙电信)

    Telefónica 西班牙及拉丁美洲地区领先的电信运营商,西班牙第一家上市公司,也是电信业主要的全球化企业之一 ,全球拥有8200万客户,在16个国家拥有分支机构。拥有4500万固定线路(西班牙2100万),3600万移动电话 (西班牙1800万) ,100万付费电视用户 (西班牙80万)。Telefónica经过对各家数据库产品进行基准测试后,采用了Sybase DODS解决方案,成功地将数十个各自独立的信息系统的海量数据准实时集中存放在ODS架构中,实现了在最优的存储和维护成本下获得了最好的性能的目标。
    2、ComScore-一家新生代信息服务公司

    ComScore需要监控分别来自美国六个不同的主干网,七个重要要城市的网络点击流。基于Internet的客户数往往是难以控制的,且常常是非常大量的(有时候会达到百万数量级),这就导致有大量的数据需要收集,ComScore如今每周需要处理600万条新纪录,约300GB数据,全部数据达到了60TB,在IQ中存储只占用20+TB。

    3、Nielsen Media Research

    总部位于佛罗里达州达尼丁市的 Nielsen Media Research 是全球范围内电视观众测评及相关服务的主要提供商。可想而知,随着这种调研工作的不断扩大和深入,Nielsen Media Research 的数据量也变得十分庞大,而且已经成为了企业的生存命脉。
Nielsen 客户提交的请求往往不是订单处理,而是集中在海量数据的提取上,因为客户需要这些数据进行分析。而每一条请求都包含数十页,甚至数百页的 SQL 语句。如果采用传统的关系型数据库, I/O 负载将会非常重。如今,采用Sybase 的 IQ Multiplex 后,不仅解决了问题,而且能够随时对 CPU 进行调整,最高速率保持在每小时 600GB,这个速度不会给 SAN 磁盘的 I/O 造成过重的负担,随着数据量的增长,可以通过添加更多的 CPU,以保证系统的顺利运行。

    4、Korea Chohung Bank-韩国朝兴银行

    2000 年 1 月,朝兴银行 (CHB) 完成了韩国第一个企业数据仓库 (EDW) 和基于 web 的市场数据库系统的开发工作。CHB 将 EDW 用作集成交易数据和客户所有相关信息的数据存储单元。包含在 EDW 中的客户和交易信息每天都会更新,供 CHB 内部各独立业务单位‘数据集市’中的大约 700 名用户(如用于管理收益、信贷和风险的集成系统)使用。

    5、广东电信海量数据分析系统
  
    广东电信需求主要特点就是数据量庞大,广东公众多媒体通信网拨号用户总数已达到70万。根据业务需求分析,广东省163/169网到2002年底的用户总数将达到800万以上,其中拨号注册用户达400万,主叫用户300万,卡用户100万,专线用户也将达到1万户以上。在这些大量的数据背后隐藏着许多重要的信息。另一方面,广东电信业务结构复杂,系统的最终用户的需求不尽相同,业务策略不断变化。广东电信经过多方测试比较,最终在广东视聆通和福建163网,广东省新一代的多媒体网综合业务管理系统,广州电信市场经营分析系统等多个系统中采用了Sybase VLDS解决方案。

    6、广东移动IP网管系统(2006年IQ数据量达到30+TB)

     广东移动是中国领先的移动运行商,其CMNET是中国移动集团内规模最大的省级IP网络,具有网络规模大、设备种类多、业务开展丰富等特点。广东移动业务系统的IP网络管理系统,每日数据行数巨大,仅WAP业务一项,目前每天 超过9亿行(ROWS),每日数据增量在800GB,且保持着相当高的增长速率,在大量数据持续加载到数据库的同时还需要做大量的汇总计算工作。该系统经过经过9个月的运行,验证了在移动IP网管领域,采用Sybase VLDS解决方案能够满足移动要求的支持海量数据存储和业务管理发展需要,项目一期实现了多个业务系统数据的实时装载,小时分析,日分析。在存储方面,实际磁盘开销,低于原始数据文件的大小,在充分满足查询需求的基础上,很好的控制了空间的膨胀,降低了存储代价。

    7、交行总行历史数据存储与查询系统(5+TB)

    交通银行总行历史查询数据量在不断增加,尤其在实现个人历史数据查询功能后,数据量更加急速增长,达到5TB。交行总行历史数据查询系统采用了Sybase IQ数据库作为其VLDS方案后,又考虑到历史查询系统数据安全的重要性,引入有效的备份、方便高效的恢复技术NonStop IQ,进一步满足海量数据7 X 24的高可用性和满足系统灾难恢复的需要。
 
    8、TelestraClear 历史数据归档与报表系统

     TelstraClear有限公司是新西兰第二大全业务电信运营商,它需要收集并报告经由它的交换机到其他公司的呼叫信息并计费,也需要检验从公司外部收到的计费信息。为了管理公司内部的计费,TelestraClear追踪所有呼叫明细。由于数据量不断增件,系统需要额外的维护,而且对所需报表难堪重负。Sybase IQ出色的性能及压缩能力使TelestraClear利用现有的硬件,节约储存成本以及额外的维护费用。TelstraClear每天产生6百万条记录,每月大约有1400百万条记录。Sybase管理超过13个月的数据,大约30亿行信息。Sybase IQ解决方案使TelstraClear可以存储超过13个月的数据,提供了丰富的历史报表,而且能够在很短的时间内完成即席查询与日常报表。

五、市场评测

    Winter 公司,是一家研究和咨询机构,每半年出版一份全世界前十位最大、负担最沉重的数据库(http://wintercorp.com/index.html)。从以下Winter的报告中,肯定了数据的激增。

    报告说明:
    1.//Number of Rows is the total number of rows in all tables in the database, in millions.
    2.//Normalized Data Volume estimates of the total volume of data managed by the DBMS in GB.

    Winter的2004报告Windows平台VLDS排名(分别按照数据库中记录行数、数据库大小排名):


   
    Winter的2004报告UNIX平台VLDS排名(分别按照数据库中记录行数、数据库大小排名):



    Winter的2005报告所有平台VLDS排名(按照数据库中记录行数排名):



    Winter的2005报告所有平台VLDS排名(按照数据库大小排名):



说明:由于Sybase IQ所需的存储空间却比传统 RDBMS要少 60-80%,因此在按照数据库实际大小排名时Sybase用户不多。



0
相关文章