自从特朗普开始卡我们脖子以后,小编就特别的关注数据库和操作系统的国产化。尤其现在数据库市面上画风大变,从原来大概屈指可数的10家公司不到,一下子变成了200家,甚至在一个群里面听说有2000家,我的天哪,这么内卷吗?看来米国的开源还是太多了。

前一段时间听说某大厂放出来网红数据库,跑了个TPCH性能不错。然后又看到了一些数据,另外一家新兴网红数据库跑了一个实际的性能比大厂的网红数据库还要快,这一下子引起了小编的兴趣,一定要去搞一搞,看看到底实际的情况是什么。
小编从各个不同的渠道开始入手。首先刚才提到的那两家网红数据库已经有公开的数据了,先把他们的数据库跑一下,于是乎跑到大厂网站下了6月1号才开源的数据库,一碰撞,结果发现手动安装简直是一场灾难,如果不想遇到灾难,就必须得用他的家的安装工具,这可怎么办?
这可难不倒小编,小编通过各种渠道听说有认证的工程师,于是从认证工程师那里软磨硬泡搞到了一套企业级的安装版。先把数据库一通安装,装好以后,分别跑了两个数据量的性能测试,结果发现不知道为什么性能测试的结果还不如另一家新兴网红公司跑出来的,难道是小编的水平还是有限?!……

不管那么多了,后面慢慢调吧,至少是装起来能跑了。

表一:10G和100G数据量下OceanBase TPCH 实测耗时
小编又跑去那家新兴的网红公司下了一开源版,听说他们家的开源社区做的确实不错,安装还比较顺利,说明他们家在这方面还是比较友好的,可见开源也有开到什么程度的开源。小编上去跑了一个实际的性能测试,经过一通调优以后,基本上能够达到这家新兴网红公司已经公开的水平。
不过10个GB的数据确实有点不过瘾,先按照这个路子来走吧,然后又去跑了100 GB, 想想小编的笔记本都有128G的内存,跑个10GB真的是有点浪费。
表二:10G和100G数据量下TiDB TPCH 实测耗时
这么一通折腾以后,想想还有一些国内独立的技术路线,像什么全内存的分布式数据库,柏睿数据,但是他家是闭源的怎么办?小编只好先是在网上注册了一个账户,要求能够拿到一个版本做测试,很快这个版本就发过来了,看来闭源也可以很友好的嘛。但是一通折腾以后发现居然是一个阉割版,他家是个基于连接器的可插拔架构,只给了1个MySQL,和1个PG的连接器。看来闭源的数据库真的是对自己守得很牢呀。小编只好在微信号里跟柏睿数据的工程师一通套近乎,终于人家还是给了一套全功能的,也不是太难嘛。安装倒也简单,基本上按照他们的安装手册能够一步一步走下来,看来闭源还是有道理的,能够专心自己做自己的工作,东西做的蛮完整的。 不过小编还是要吐槽下,阉割版确实是限制了不少,只能跑1个G的数据,企业版能也是受了限制的,毕竟是个试用版,能跑10个GB也能跑100个GB,这100个GB也是小编后来苦苦哀求以后,这家内存数据库厂商才给了一个全部放开的版本。
于是小编开始生成数据,他们家工具做的还不错,生成数据各方面都挺快,可能也是小编的笔记本比较靠谱,测了10个GB不够过瘾呀!为了不浪费小编128G内存的笔记本,又测了一个100GB。
测完以后我才发现这个速度那是真的快呀!小编还以为出错了呢。。。大家看一看我这里的表,就可以感觉到什么叫风驰电掣,看来全内存真的不是白给的。
表三:10G和100G数据量下RapidsDB TPCH 实测耗时
看来小编以后可以多在网上查一些数据,多干一些数据分析的活,128G内存的笔记本可以好好发挥作用了。10个GB的数据跑完TPCH平均不到2秒钟,小编开始感觉是不是自己的眼睛花了?感觉至少应该20秒,怎么就2秒钟呢?几次三番的跑,最后发现真的是2秒钟。我的天哪不到1秒就能把10个GB的数据都跑完,不到2秒就能把100个GB数据跑完,我也是醉了。看来全内存真的是今后的方向,而且现在内存确实也没有那么贵,小编都有128GB了,要是稍微有点钱的客户每一台机器弄个128GB,搞个10台机器,那不将近1个TB的数据。

图一:100GB数据量下数据库TPCH实测耗时
看来小编真的得去搞个10台机器去测一测,看看究竟能跑出什么样来,确实引起了我非常浓厚的兴趣。
小编这一通折腾,折腾到半夜还是蛮兴奋的。不过真的要搞到10台128GB的跑车级测试真是不容易,小编得去想想办法了。睡觉前就先Post个测试的比较吧,困的不行,梦里先跑一跑10台1024GB跑车吧。