【IT168 专稿】知乎有一个很有趣的讨论话题“一个毕业三年做数据仓库姑娘的困惑”,姑娘想跳槽感觉知识水平有限打算脱产培训,很多人留言表示脱产培训需慎选。相信很多人都和这位姑娘有相同的困惑。个人到底应该如何学习数据仓库?数据仓库与数据库到底有何本质区别?企业到底如何构建数据仓库?
本次访谈邀请到的嘉宾是美团的宋洪鑫。他2011年毕业于北京邮电大学计算机系,曾加入阿里北京商家数据部从事数据实时计算工作。14年加入美团,一直专注在数据仓库生产解决方案领域,目前担任数据平台技术专家。本次采访,他将结合自身经验,对上述问题做出解答。
▲宋洪鑫
数据仓库—-初学者的起步姿态
其实个人所用的话,完全没必要建立数据仓库,数据库完全够用。但对于超市,医院甚至于大型公司,数据仓库就显得尤为重要。互联网+的时代下,各行各业都需要运用数据仓库来适应这个数据爆炸的社会。作为初尝数据仓库的职场小白,如果搞不清方向,很有可能分分钟让企业蒙受损失或错失商机。
(1)搞清概念助力学习
首先你应该理解数据仓库的概念。很多人数据仓库和数据库傻傻分不清楚,认为数据仓库就是一个大型的数据库,小编在此之前也一直处于懵圈状态,只好请出宋洪鑫为大家讲解。在这个问题上,宋洪鑫引用Bill Inmon的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。他表示,与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程以及支撑这个过程的一整套软件工具。而一般数据库:更多的是专注在物理上,如何将数据有效的组织和存储起来,以此提供增删改查等系列操作。
(2)分清主次注重总结
很多初学者,免不了急功近利,急于从技术下手,而忽略了概念理解。为避免大家被现实撞的头破血流,宋洪鑫提出初尝数据仓库,可以先从熟悉数据仓库的业务出发,提高业务理解能力,才能深刻了解数据仓库在建设过程中碰到的问题本质原因是什么,然后再结合学习目前的数据仓库技术去解决这些问题。同时熟悉业务和学习技术过程中,要多注重总结与回顾。先知道自己要干什么,怎么着手,理清思路,再考虑技术手段,可以达到事半功倍的效果。
数据仓库—-企业的起步姿态
经过多年的苦心经营和市场积累,很多企业保存了大量的原始数据和各种业务数据,它是企业生产经营活动的真实记录,若不能加以有效利用,无法将这些数据转换成对企业有用的信息。如何使企业或组织在激烈的市场中保持对客户的吸引力?如何预先发现和避免企业运作过程中不易察觉的商业风险?如何在堆积如山的企业交易数据中发现有商业价值的闪光点?如若不然,我们会淹死在数据中,但却为信息所饿。如何高效建立企业数据仓库是个至关重要又迫在眉睫的问题。
(1)保证数据质量提高可信度
对于年轻的宋洪鑫来说,在摸爬滚打的过程中历经了很多困难,小编为大家整理了他对企业数据仓库构建的一些见解和心得,对企业数据仓库的构建想必十分受用。
数据质量上:上游业务数据变更以元数据变更,对下游数据一致性和准确性的影响。
在事前,建立变更通知机制和规范
在事中,通过建立数据质量监控系统从业务数据本身,以及仓库元数据上,及时监控通知。
在事后,通过数据血缘分析机制,及时评估影响和紧急修复
通过上述三步,可以有效克服数据质量上游业务数据对下游的影响,从何使数据质量更高,可信度更高。
底层数据存储平台选择上:某些数据仓库没有及时进行较好的分层,在ETL开发上,导致数据交互成本过高。这也就是很多人认为ETL没有SQL语句效率高的原因了。宋洪鑫表示:
仓库模型上:规范数据仓库层次
数据交互上:从ETL开发机制上,保证数据的合理流向(一般情况,ods->dw->mart)
在底层存储平台上:以hive基础层数据计算为主,mysql,tair等查询为主应用模式,尽量杜绝hive->mysql->hive->其他的低效数据流转。
(2)构建企业数据仓库从三方面入手
对于企业数据仓库的构建,宋洪鑫认为主要从三个方面入手。首先技术选型上:结合企业的实际情况,选择当前最适合业务场景和规模的就好,不要盲目引入“先进的技术”。其次管理好元数据:数据仓库建设是元数据驱动的,在仓库建设初期,就应该对元数据进行系统化的设计和管理,并结合实际情况及时调整。最后注重数据质量建设:在数据入仓前,进行充分的数据剖析和及时清洗,保证高质量数据才是支持企业管理和进行决策的核心。
写在最后
宋洪鑫在本届数据库技术大会上会带来《美团数据仓库开发模式演进》,会上他将对美团数据仓库开发模式进行系列回顾,并介绍开发过程中每个阶段遇到的问题以及解决方案。本次演讲的亮点,应该是近两年在美团业务飞速增长过程中,平台是如何在技术架构和工具链上进行演进的,以及在数据仓库开发模式上如何及时调整为最适合的状态,以此来满足业务上的需求。感兴趣的骚年不要错过哦!
2016第七届中国数据库技术大会(DTCC)将于2016年5月12日-14日召开,大会云集了国内外顶尖专家,共同探讨数据仓库、数据处理、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术,届时宋洪鑫将会带来精彩演讲,含金量高,不容错过哟!欲了解更多有关大会的精彩内容请访问DTCC 2016官网:http://dtcc.it168.com/