使用Hive构建数据库备战大数据时代-技术开发专区

使用Hive构建数据库备战大数据时代

作者：Peter J Jamack 编辑：徐志远 2013-12-18 11:06 来源：develop

【IT168 评论】当您需要处理大量数据时，存储它们是一个不错的选择。令人难以置信的发现或未来预测不会来自未使用的数据。大数据是一个复杂的怪兽。用 Java 编程语言编写复杂的 MapReduce 程序要耗费很多时间、良好的资源和专业知识，这正是大部分企业所不具备的。这也是在 Hadoop 上使用诸如 Hive 之类的工具构建数据库会成为一个功能强大的解决方案的原因。

　　Peter J Jamack 是一名大数据分析顾问，拥有超过 13 年的商业智能、数据仓库、分析、大数据和信息管理方面的经验。他将结构化和非结构化数据集成到创新性的集成分析解决方案中，使用各种各样的大数据和 MPP 平台为各行各业的客户提供大规模的、集成的分析平台，这些行业包括保险、政府、媒体、金融、零售、社交媒体、市场营销和软件等。

　　如果一家公司没有资源构建一个复杂的大数据分析平台，该怎么办?当业务智能 (BI)、数据仓库和分析工具无法连接到 Apache Hadoop 系统，或者它们比需求更复杂时，又该怎样办?大多数企业都有一些拥有关系数据库管理系统 (RDBMSes) 和结构化查询语言 (SQL) 经验的员工。Apache Hive 允许这些数据库开发人员或者数据分析人员使用 Hadoop，无需了解 Java 编程语言或者 MapReduce。现在，您可以设计星型模型的数据仓库，或者常态化的数据库，而不需要挑战 MapReduce 代码。忽然之间，BI 和分析工具，比如 IBM Cognos 或者 SPSS Statistics，就可以连接到 Hadoop 系统。

　　数据库

　　构建数据库，并且能够使用这些数据，这不是 Hadoop 或者数据库问题。多年以来，人们一直习惯将数据组织到库中。有许多由来已久的问题：如何将数据分门别类?如何将所有数据连接到集成的平台、机箱或者库?多年来，各种方案层出不穷。

　　人们发明了很多方法，比如 Dewey Decimal 系统。他们将通讯录中的人名或企业名按照字母顺序排列。还有金属文件柜、带货架的仓库、地址卡文件系统，等等。雇主尝试用时间卡，打卡器以及时间表追踪员工。人们需要结构化和组织化数据，还需要反映和检查这些数据。如果您无法访问、结构化或理解这些数据，那么存储这么多的数据有什么实际意义呢?

　　RDBMSes 使用了过集合论和第三范式。数据仓库有 Kimball、Inmon、星型模型、Corporate Information Factory，以及专用数据集市。他们有主数据管理、企业资源规划、客户关系管理、电子医疗记录和其他许多系统，人们使用这些系统将事务组织到某种结构和主题中。现在，我们有大量来自各个行业的非机构化或半结构化数据，例如，社交媒体、邮件、通话记录、机械指令、远程信息，等等。这些新数据需要集成到存储结构化的新旧数据的非常复杂、非常庞大的系统中。如何分类才能使得销售经理能够改进报告?如何构建库才能使得执行主管能够访问图表和图形?

　　您需要找到一种将数据结构化到数据库的方法。否则，只是拥有大量只有数据科学家才能访问数据。有时，人们只是需要简单的报告。有时，他们只是想要拖拽或者编写 SQL 查询。

　　大数据、Hadoop 和 InfoSphere BigInsights

　　本小节将向您介绍 InfoSphere BigInsights，以及它与 Hadoop、大数据、Hive、数据库等有何联系。InfoSphere BigInsights 是 Hadoop 的 IBM 分区。您可能对 Apache 和 Cloudera 比较了解，但是业内许多人都曾涉足 Hadoop。它开始于开源的使用 MapReduce 的 Hadoop 和 Hadoop 分布式文件系统 (HDFS)，通常还包括其他工具，比如 ZooKeeper、Oozie、Sqoop、Hive、Pig 和 HBase。这些发布版与普通 Hadoop 的区别在于它们被添加在 Hadoop 顶层。InfoSphere BigInsights 就属于这一类版本。

　　您可以在 Hadoop 的 Cloudera 版本之上使用 InfoSphere BigInsights。此外，InfoSphere BigInsights 提供一个快速的非结构化的分析引擎，您可以将它和 InfoSphere Streams 结合在一起使用。InfoSphere Streams 是一个实时的分析引擎，它开创了联合实时分析和面向批次的分析的可能。

　　InfoSphere BigInsights 还拥有内置的、基于浏览器的电子表格 BigSheets。这个电子表格允许分析人员每天以电子表格样式使用大数据和 Hadoop。其他功能包括基于角色的安全和管理的 LDAP 集成;与 InfoSphere DataStage 的集成，用于提取、转换、加载 (ETL);常用的使用案例的加速器，比如日志和机器数据分析;包含常用目录和可重复使用工作的应用目录;Eclipse 插件;以及 BigIndex，它实际上是一个基于 Lucene 的索引工具，构建于 Hadoop 之上。

　　您还可以使用 Adaptive MapReduce、压缩文本文件、自适应调度增强来提高性能。此外，您还可以集成其他应用，例如，内容分析和 Cognos Consumer Insights。

第1页：构建大数据存储数据库难题第2页：Hive的基础介绍优劣势分析第3页：使用 Hive 构建数据库具体实践

关注我们

使用Hive构建数据库 备战大数据时代

使用Hive构建数据库备战大数据时代