2020年12月21日~12月23日,由 IT168 旗下 ITPUB 企业社区平台主办的第十一届中国数据库技术大会(DTCC2020)在北京隆重召开。作为本届大会的演讲嘉宾,录信数软 CTO母延年 以《万亿数据库核心存储引擎实现与应用》为主题进行了精彩的议题分享,并在议题分享后接受了IT168小编的采访。
从新浪、酷六到阿里、腾讯再到自主创业创办录信数软,作为一名在数据领域摸爬滚打了十数年的“老兵”,母延年对于大数据相关技术有着痴迷般的热爱,其中Lucene不仅仅是其最为喜爱的搜索引擎之一,更是其公司“录信”的名称由来。
致力打造日破万亿级别数据库产品
“录信整体定位是想做一个行业通用的数据库产品,该数据库主要的特点是能承担特别巨大的数据量,预期每天可以破万亿级别,目前生产系统中已达到每天迁移增量。”母延年在接受采访时如是说。
此外母延年表示,更希望录信的数据库是一个全栈的数据库,根据母延年介绍,目前大家在使用一个数据库系统时,往往需要搭建七八种大数据系统,每种产品擅长一个方向,由此造成整体维护成本、数据存储成本相应增多。录信作为一家靠索引创立的公司,希望通过大数据中各式各样的索引来满足不同的业务场景。
浅析海量数据检索分析
对于成立仅仅两年多的录信来讲,想要做到日破万亿级别的数据库产品又谈何容易。当谈及海量数据的检索分析时,母延年认为当前主要面临有几个痛点问题:
首先是并发能力层面,目前很多OLAP场景的数据库,其闭环能力不够(比如Spark闭环能力很低,只能达到几十上百个),而很多业务场景更倾向于更高的并发,这类系统只能做一些线下业务,录信希望将来的系统除了做线下以外能更适合线上的业务,线上业务意味需要高并发的支持检索、统计等功能的查询,譬如可以支持每秒上千万甚至上亿的并发查询;
此外,其节点一定要具备很好的弹性。面对海量的数据,目前的数据库一般采用分库分表的方式,比如在起初设计时分为10个分片来承担每天10亿的数据规模,但当数据量达到100亿时,这些分片无法自动分裂向下扩展,而是需要将原来的数据重新导一遍。母延年表示,一开始数据量很少时可能只有一个分片,当数据量增多时可以分成10个,特别多时可以变为100个,当数据完成一个生命周期需要清理,数据量极具减少时,又会回归到最初的一个分片,他认为这种弹性的能力对于数据库来说比较重要。
随后,母延年也对录信数据库架构进行了简单介绍。根据他的介绍,录信数据库结构主要具备两大核心特点:
●第一,录信数据库带有各种各样的索引,譬如检索型索引、分析型索引等,录信数据库能够通过这些索引来对整体性能进行提升;
●第二,录信数据库所有的数据存储在分布式文件系统之上。录信认为因为只有将数据存储在分布式文件系统之上,才可能支撑规模特别巨大的数据量。如果将数据存储在本地,会面临很多问题。譬如数据在每个存储盘的负载不均衡导致有的盘负载极高,但有的盘可能非常空闲几乎没有用到,但使用分布式文件系统,这种问题就迎刃而解。而鉴于分布式文件系统比较慢的弊端问题,录信也基于分布式文件系统做了优化,通过这些优化可以让速度做得很快。
数据库,要做就做规模最大的!
作为国内数据库领域的新秀,录信数软并不满足于当前的成绩。在2020年4月份疫情期间录信数软获得了首轮投资,录信在拿到该笔投资后全部投入在产品的研发中,母延年表示目前录信的新品基本研发框架已经完成,并进入测试阶段,预计在2021年3-5月之间获将以免费的模式正式对外提供。
谈到未来,母延年认为未来行业将更加倾向于更全面的全栈数据库,此外随着5G技术的发展,基础设施建设的不断完善,数据库行业可能会有较大转变,未来两三年后可能会出现数据爆炸式的增长。他表示这次增长对于录信来讲是一个机遇,录信做数据库,要做就做一个规模最大的!