技术开发 频道

使用Hive构建数据库 备战大数据时代

        【IT168 评论】当您需要处理大量数据时,存储它们是一个不错的选择。令人难以置信的发现或未来预测不会来自未使用的数据。大数据是一个复杂的怪兽。用 Java 编程语言编写复杂的 MapReduce 程序要耗费很多时间、良好的资源和专业知识,这正是大部分企业所不具备的。这也是在 Hadoop 上使用诸如 Hive 之类的工具构建数据库会成为一个功能强大的解决方案的原因。

  Peter J Jamack 是一名大数据分析顾问,拥有超过 13 年的商业智能、数据仓库、分析、大数据和信息管理方面的经验。他将结构化和非结构化数据集成到创新性的集成分析解决方案中,使用各种各样的大数据和 MPP 平台为各行各业的客户提供大规模的、集成的分析平台,这些行业包括保险、政府、媒体、金融、零售、社交媒体、市场营销和软件等。

  如果一家公司没有资源构建一个复杂的大数据分析平台,该怎么办?当业务智能 (BI)、数据仓库和分析工具无法连接到 Apache Hadoop 系统,或者它们比需求更复杂时,又该怎样办?大多数企业都有一些拥有关系数据库管理系统 (RDBMSes) 和结构化查询语言 (SQL) 经验的员工。Apache Hive 允许这些数据库开发人员或者数据分析人员使用 Hadoop,无需了解 Java 编程语言或者 MapReduce。现在,您可以设计星型模型的数据仓库,或者常态化的数据库,而不需要挑战 MapReduce 代码。忽然之间,BI 和分析工具,比如 IBM Cognos 或者 SPSS Statistics,就可以连接到 Hadoop 系统。

  数据库

  构建数据库,并且能够使用这些数据,这不是 Hadoop 或者数据库问题。多年以来,人们一直习惯将数据组织到库中。有许多由来已久的问题:如何将数据分门别类?如何将所有数据连接到集成的平台、机箱或者库?多年来,各种方案层出不穷。

  人们发明了很多方法,比如 Dewey Decimal 系统。他们将通讯录中的人名或企业名按照字母顺序排列。还有金属文件柜、带货架的仓库、地址卡文件系统,等等。雇主尝试用时间卡,打卡器以及时间表追踪员工。人们需要结构化和组织化数据,还需要反映和检查这些数据。如果您无法访问、结构化或理解这些数据,那么存储这么多的数据有什么实际意义呢?

  RDBMSes 使用了过集合论和第三范式。数据仓库有 Kimball、Inmon、星型模型、Corporate Information Factory,以及专用数据集市。他们有主数据管理、企业资源规划、客户关系管理、电子医疗记录和其他许多系统,人们使用这些系统将事务组织到某种结构和主题中。现在,我们有大量来自各个行业的非机构化或半结构化数据,例如,社交媒体、邮件、通话记录、机械指令、远程信息,等等。这些新数据需要集成到存储结构化的新旧数据的非常复杂、非常庞大的系统中。如何分类才能使得销售经理能够改进报告?如何构建库才能使得执行主管能够访问图表和图形?

  您需要找到一种将数据结构化到数据库的方法。否则,只是拥有大量只有数据科学家才能访问数据。有时,人们只是需要简单的报告。有时,他们只是想要拖拽或者编写 SQL 查询。

  大数据、Hadoop 和 InfoSphere BigInsights

  本小节将向您介绍 InfoSphere BigInsights,以及它与 Hadoop、大数据、Hive、数据库等有何联系。InfoSphere BigInsights 是 Hadoop 的 IBM 分区。您可能对 Apache 和 Cloudera 比较了解,但是业内许多人都曾涉足 Hadoop。它开始于开源的使用 MapReduce 的 Hadoop 和 Hadoop 分布式文件系统 (HDFS),通常还包括其他工具,比如 ZooKeeper、Oozie、Sqoop、Hive、Pig 和 HBase。这些发布版与普通 Hadoop 的区别在于它们被添加在 Hadoop 顶层。InfoSphere BigInsights 就属于这一类版本。

  您可以在 Hadoop 的 Cloudera 版本之上使用 InfoSphere BigInsights。此外,InfoSphere BigInsights 提供一个快速的非结构化的分析引擎,您可以将它和 InfoSphere Streams 结合在一起使用。InfoSphere Streams 是一个实时的分析引擎,它开创了联合实时分析和面向批次的分析的可能。

  InfoSphere BigInsights 还拥有内置的、基于浏览器的电子表格 BigSheets。这个电子表格允许分析人员每天以电子表格样式使用大数据和 Hadoop。其他功能包括基于角色的安全和管理的 LDAP 集成;与 InfoSphere DataStage 的集成,用于提取、转换、加载 (ETL);常用的使用案例的加速器,比如日志和机器数据分析;包含常用目录和可重复使用工作的应用目录;Eclipse 插件;以及 BigIndex,它实际上是一个基于 Lucene 的索引工具,构建于 Hadoop 之上。

  您还可以使用 Adaptive MapReduce、压缩文本文件、自适应调度增强来提高性能。此外,您还可以集成其他应用,例如,内容分析和 Cognos Consumer Insights。

0
相关文章