顾荣：数据库选型切记不能人云亦云-技术开发专区

顾荣：数据库选型切记不能人云亦云

作者：杨璐编辑：杨璐 2016-05-03 00:00 IT168网站原创

　　【IT168 专稿】还剩下不到10天的时间，2016第七届中国数据库技术大会(DTCC)这场技术盛宴即将开幕，此刻，会务组的每位工作人员都在积极准备着大会相关的一切!小编自然是对能够采访到的嘉宾开启了“疯狂模式“。

　　本次采访到一位特别的嘉宾，他是博士生(南京大学计算机系博士生)，也是开发者(Alluxio项目核心开发者)——顾荣。他曾在微软亚洲研究院、英特尔、百度、星环科技(Transwarp)从事过大数据系统研发实习工作。

顾荣：数据库选型切记不能人云亦云

　　南京大学计算机系博士生顾荣

　　顾荣并不像小编脑补中那个一心钻研技术的开发者。相反，博士生的业余爱好十分广泛，比较热爱的一项足球，相信很多技术人员也会共鸣吧。除了电视或现场观看比赛之外，顾荣还和朋友们参加了家乡一个叫安丰老男孩的业余足球队，假日相约踢踢比赛。小编慢慢的对技术开发者这个群体改变了看法，他们的生活也是丰富多彩的。

　　大数据技术领域的逐步细分与快速演进

　　在问到顾荣老师最近在关注大数据方面的一些问题时，他说道：“随着Hadoop, Spark等大数据计算框架的日益成熟，我最近关注的热点是位于计算框架之下的高效大数据存储平台以及计算框架之上的分布式数据挖掘技术。这两大技术的发展对大数据生态圈的落地也有举足轻重的作用。”

　　在这次的数据库大会上，顾荣将带来一个有关于高效大数据存储平台Alluxio项目的技术报告和分享。

　　大数据技术公司面临的尴尬

　　顾荣博士参与编写过很多书籍中的章节，如大家熟知的《深入理解大数据卷1：大数据处理与编程实践》、《实战Hadoop：开启通向云计算的捷径》等。谈到在这过程中，遇到的一些技术难点，如何处理，顾荣博士感触很深“我特别要借此平台感谢给予我指导的黄宜华教授。”

　　不同的项目或论文往往都有不同的技术难点，这里难以一一细述。说一个常见的难点，在做一些Spark, Alluxio内核优化的时候，对内部具体组件进行调试有时会出现异常。我们常用的应对方法就是到开源社区寻求探讨再加上自己研读源代码反复调试。

　　事实上，除了技术难点之外，学术界和一些大数据技术公司面临的一个尴尬之处是缺乏实际大数据集，这方面我们的应对方法是与拥有大数据集的公司进行联合科研和开发。顾荣博士也特别表示了感谢像DTCC这样的技术大会，给提供结识志同道合的业界人才的机会。

　　数据库选型最该注意“特性”

　　在谈到用户选型数据库最一应该注意什么的时候，顾荣老师也分享了他的建议：用户对大数据时代下多种多样的数据库进行选型最应该注意的是结合自己的核心应用场景的特性，不能人云亦云或者哪个热门选哪个。

　　大数据系统里面的众多数据库都能满足基本的查询功能，但是在实际实现方式和性能方面各有侧重。例如，HBase、Redis支持灵活高效的Key-Value结构的查询，相比较而言Hive、Impala在复杂的OLAP查询分析方面更有优势。用户选型的时候最好根据自己的需求选择一款适合自己应用的数据库。

　　随着云计算、开源大数据技术的迅速发展，初创企业的基础架构方面的技术壁垒正在逐步消除。这对于创业是个好事情，互联网创业企业能够很轻松地在云服务上租赁并配置他们的云主机，然后安装上成熟的单机或分布式数据库，接下来就可以专注于他们业务的开发和优化了。数据库选型方面，我的建议是要结合自己的业务发展规划，尤其是互联网企业要考虑好用户和相关行为的数据量来选择合适的可扩展性的数据库;另外，还要根据重点业务需求设计选择是选用Key-Value模式为主的数据库，还是表结构为主的数据库，是选择NOSQL数据库还是选择SQL语法支持较好的传统数据库。

　　总之，数据库的选型非常重要，一定要对业务进行深入地分析之后再结合实际情况进行。

　　写在最后

　　顾荣会在大数据生态系统及开源专场带来《开源的虚拟大数据存储系统Alluxio的功能与使用案例介绍》，主要向大家介绍Alluxio的发展演变历程以及1.0版本的特性和工作原理和1-2个Alluxio在业界的使用案例。感兴趣的小伙伴不要错过哦!

顾荣：数据库选型切记不能人云亦云

　　2016第七届中国数据库技术大会(DTCC)将于2016年5月12日-14日召开，大会云集了国内外顶尖专家，共同探讨MySQL、智能数据平台、数据治理、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术，为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。欲了解更多有关大会的精彩内容请访问DTCC 2016官网：http://dtcc.it168.com/

关注我们