【IT168 评论】云数据仓库一直是热度很高的领域,Amazon Redshift和Google BigQuery作为最受欢迎的数据仓库一直是企业选型的重点。为了更加有效的帮助大家选型,我们将在可用性、价格、可伸缩性和性能等多个方面进行了比较。
Amazon Redshift和Google BigQuery
Redshift最初是在2012年由亚马逊发布的。Redshift的灵感来自于PostgreSQL的关系本质,可应用于OLAP和BI应用程序,基于PostgreSQL 8.0.2,由ParAccel创建,其中ParAccel是专为BI高级分析而设计的数据库管理系统。
BigQuery最初只是在Google内部使用,后来才向外推广。BigQuery是基于Dremel开发的Web服务,其将Dremel呈现在REST界面之上,BigQuery类似于混合系统,基于列操作,支持数据集成。
技术环境
两家公司都建立了强大而全面的技术环境,可通过数据集成支持系统,也可通过分析工具提升BI分析能力,同时也提供了开发人员社区和技术咨询。
价格
如果单纯比较价格,那么Redshift要比BigQuery贵得多,Redshift大概是每GB 0.08美元,而BigQuery是每GB为0.02美元。但是,BigQuery只提供存储不提供查询服务,如果要使用查询服务,那该平台会以5美元/ TB的价格单独收取费用。由于BigQuery缺少索引和各种分析查询,因此扫描数据是一个巨大而昂贵的过程。而用户之所以会选择Amazon Redshift,很大的原因是它可预测,且数据的使用和分析很简单。
数据灵活性
如果在事务期间发生任何事情,Amazon Redshift允许用户执行回滚以确保数据返回到一致状态。BigQuery的工作原理是仅附加数据,其存储引擎也严格遵循这一要求,所以当在事务处理期间出现问题时,用户就不得不从头开始或者从某个特定点开始重新启动。
另外,BigQuery中的重复数据难以实现且成本高昂。这两种技术都对插入流数据有所保留,Redshift通过保证数据存储得到了用户的青睐,而BigQuery则通过使用时间窗口来支持流数据的重复数据删除。
场景支持
BigQuery在统一场景中要优于Redshift,因为BigQuery将底层硬件组件、数据库和其他形式的细节都分开了。而Redshift的学习使用具有一定的复杂性,需要具备深厚的知识和特定的技能。
支持分配
BigQuery会测量用户想要执行的每个查询所需的插槽数,可按需增加;而Redshift则是通过限制组成集群所需的设备来遵循经典过程。Redshift的另一个缺点是大小调整,用户需要将所有数据重新定位到新集群。
安全
首先,两个产品都提供了传统的身份验证和安全功能。
Google BiqQuery支持云身份和访问管理,允许用户使用OAuth获取集群。
Amazon Redshift依靠IAM为用户提供亚马逊管理访问和身份,该系统是一个功能强大,可在访问和身份管理的情况下监控复杂情况。
选型建议
Redshift和BigQuery都采用云托管技术,提供类似于分析数据库的功能和技术。用户在选择时,可参考自己公司的需求和财务状况,如果是小公司和初创公司,建议使用Google BigQuery,因为其简单且经济实惠,对云数据库技术不熟悉的人也能轻松掌握,因为它不会涉及太多的复杂问题。亚马逊Redshift灵活性不太好,涉及集群创建等复杂操作,适合技术实力比较强的公司,另外,Redshift还可以通过可预测技术和集群使用来详细分析具体情况。