数据库 频道

星环科技如何用数据库打造第二增长曲线?

  2022年转瞬即逝,又到了岁末年初,到了回顾与展望的时候。2022年,对于国内基础软件而言,可以说机遇大于挑战。在信创浪潮之下,资本市场也迎来了开花结果,可以看到星环科技这样的大数据基础软件供应商成功登陆科创板,填补了国内的空白。

  根据星环科技招股书,很大一部分募集资金将会用到分布式关系型数据库建设项目中。分布式数据库一直以来都被视作国产数据库换道超车的希望,近几年中国分布式数据库在技术和行业实践方面都取得了突破。在刚刚结束的DTCC2022中国数据库技术大会上,也可以看到分布式数据库是被重点关注和讨论的数据库技术发展方向,如今金融、政企、能源等越来越多的行业应用了分布式数据库。

  日前,ITPUB&IT168采访了星环科技联合创始人刘汪根,一起聊了聊分布式数据库发展的现状和未来。

  打造星环科技的第二增长曲线

  星环科技作为大数据基础软件供应商,其创始团队来自前英特尔Hadoop核心团队,可以说成长于分布式技术体系,自带分布式的技术基因。刘汪根告诉ITPUB&IT168,星环科技相信分布式数据库将是国产数据库换道超车的机会,未来会将上市募集来的很大一部分资金投入到分布式数据库研发中,“公司把数据库作为第二增长曲线。”

  之所以如此笃信分布式数据库是换道超车的机会,刘汪根给出了两个关键因素,一是从用户角度来看,随着数字化的发展,海量的数据作为新的生产要素已经成为企业的新资产,需要更强大的IT基础能力释放数据要素价值,未来数据决策将代替人类的经验决策,海量数据的处理和大规模的并发需求,对数据库的并发度、性能、隔离性的要求越来越高,而分布式技术能够带来高并发度和高性能。二是,分布式技术在过去十年间已经被充分证明是技术发展趋势,在分布式大趋势下,包括数据库、操作系统、中间件等传统的软件都在向分布式方向发展。

  我们曾经写过星环科技在数据库层面的布局,该公司的数据库产品几乎囊括数据库领域的全部类别,关系型数据库有ArgoDB、KunDB,图数据库有StellarDB,以及搜索引擎Transwarp Scope,文档数据库DocStore,时序数据库Timelyre,时空数据库Spacture,宽表数据库Hyperbase,键值数据库KeyByte等,覆盖了十条数据库赛道,其数据库都是采用的分布式架构,且在每个领域都取得了不错的成绩。根据星环科技招股书,未来,该公司将继续专注大数据及相关基础软件的研发,围绕大数据、数据库、云计算、智能数据分析领域,坚持核心技术自主研发,为企业客户提供覆盖数据全生命周期的产品与服务。

  在数据库领域,虽然图、时序、文档等细分领域不断发展,但是目前占主导地位的依然是关系型数据库。根据IDC《2021年下半年中国关系型数据库软件市场跟踪报告》显示,2021下半年中国关系型数据库软件市场规模为15.8亿美元,同比增长34.9%。IDC预测, 到2026年,中国关系型数据库软件市场规模将达到95.5亿美元,未来5年市场年复合增长率(CAGR)为28.1%。

  据悉,在关系型分布式数据库方面,星环科技主要有三款产品,包括大数据技术体系下的Inceptor关系型分析引擎,以及自研分析型数据库ArgoDB和交易型分布式数据库KunDB。

  星环科技于2013年成立,随即发布了大数据基础平台TDH2.0版本,并于次年推出Inceptor关系型分析引擎、Slipstream实时计算引擎,实现数据湖、实时计算两大热点功能。2015年随着企业业务更为复杂多样,对数据处理提出了更高的要求,星环科技开始自研新一代分析型数据库,并于2018年推出分析型数据库产品ArgoDB,2019年8月,ArgoDB成为全球第四个通过TPC-DS基准测试并经过TPC官方审计的数据库产品,ArgoDB代码自主率(行数)超过了90%。据悉,在Clickhouse比较擅长的快速查询和高并发检索方面,以及GP所擅长的并行计算等方面,ArgoDB比Clickhouse和GP都有更好的性能表现。

  刘汪根介绍,在分析型场景,Inceptor和ArgoDB各有侧重,一般情况下,Inceptor主要用于构建数据湖,数据湖主要存储海量的结构化、半结构化和非结构化数据,对数据容量和存储有较高要求,企业可以叠加使用星环自研的分布式文件系统TDFS,满足数据湖的可扩展性、存储的弹性以及成本需要。而ArgoDB自研存储引擎、SQL引擎等可以满足业务的低延时和高并发需求,能够支持复杂业务处理,可以用来构建离线数据仓库、实时数据仓库、数据集市等数据分析系统。在星环科技服务的客户中,尤其是大型集团企业其半结构化、非结构化数据较多,一般会先采用Inceptor构建数据湖,再用ArgoDB去构建数仓或数据集市。据悉,先建湖再建仓的方案有更好的普适性,兼顾了成本和性能。如果企业对数据库的性能和业务实时性有较高的需求,也可以直接基于ArgoDB建设数据分析系统。目前,ArgoDB在金融、政企等关乎国计民生的关键行业都有广泛的落地应用。

  在交易型分布式数据库方面,星环科技基于MySQL自研了KunDB,并于2019年发布了KunDB 1.0,KunDB主要用于支持操作型业务场景(如ERP、OA、HIS等)和高并发场景(如消费者的手机APP应用、健康码查询等)的核心数据系统的构建。由于数据库生态对交易数据库的推广非常重要,星环科技非常注重用户应用能够迁移到星环科技数据库上的能力。KunDB选择了首先兼容MySQL协议,之后再增加对Oracle生态的支持,目前已经是国内少有的对Oracle PL/SQL有系统性支持的数据库,能够极大的方便用户将应用从海外数据库迁移到KunDB上。在存储层,KunDB采用share-nothing分布式架构,自研了面向内存的数据库存储引擎TMemStore,创新地采用适合内存的数据管理模型和新型索引结构MassTree,配合MVTO并发控制策略等机制保证事务ACID,为高并发同时要求强一致的关键业务场景提供高速数据操作和事务性能。根据最新披露的来自中国信通院的测试报告,KunDB的单节点TPCC性能为188万tpmC,达到业内一流水平,达到MySQL的4倍以上。此外,KunDB自研的计算引擎和SQL编译器等可以实现高度兼容MySQL、Oracle PL/SQL,能够同时支持MySQL生态和Oracle生态,支持集中式部署和分布式部署,大幅降低国产化迁移和替代成本,并且与国内主流软硬件信创厂商完成了兼容适配互认证,满足信创验收要求。目前,KunDB已经在政务、医疗等领域落地应用,预计明年将重点向金融行业推广。

  值得一提的是,随着HTAP混合负载的业务场景越来越多,如今HTAP逐渐成为数据库产品的标配。星环科技采用KunDB + ArgoDB 的异构联合应用方案支撑HTAP负载,凭借其统一的 SQL 引擎架构优势,在数据库层做了深入融合。在数据层面,KunDB 与 ArgoDB 之间基于数据库日志实时数据同步,操作型业务在 KunDB 中产生的新数据将实时同步到 ArgoDB 中,保证两个数据库中的数据实时一致,当新的业务 SQL 提交到 Transwarp Quark(SQL 编译器)后,Quark 内置的优化器可以根据业务特点选择合适的数据库来执行该业务SQL。

  未来分布式数据库发展的两个关键

  分布式数据库的发展正如火如荼,刘汪根认为,分布式数据库的发展经历了两个阶段,第一阶段,分布式数据库解决泛互联网行业的需求,泛互联网行业的特点是并发量大,业务规模大,但是业务逻辑相对简单,所以第一阶段,分布式数据库解决B2C带来的高并发和扩展性问题,比如Google Spanner这一NewSQL数据库解决了高并发的C端查询和修改问题。第二个阶段是解决企业应用领域的问题,不同于泛互联网行业,企业应用领域涉及大量的存量业务应用,其业务可能由几代开发者不断迭代积累而成,本身业务设计更为复杂,需要进行数据库的替换,当下国内分布式数据库已经走到了第二个发展阶段。

  刘汪根强调,目前国内分布式数据库一方面带来了分布式架构的安全性、扩展性、灵活性等优势,分布式数据库内核层面的高并发能力和事务能力已经被验证,但是分布式数据库也带来了分布式架构的复杂度。未来分布式数据库能否大规模落地取决于两个核心关键因素,一是面向广大的开发者,分布式数据库能不能支撑企业这些年积累下来的存量业务应用。二是面向运维者,分布式数据库的运维体验是否能和原来的单机集中式数据库相似,或者没有很大的变化。“通过在开发接口层、运维层这两层的持续性创新,以及成熟度的积累,能够逐步满足企业大规模的存量业务考验,分布式数据库替代集中式数据库的趋势也就基本成立。现在大家还处在摸索的阶段,可能还要三年左右才能够逐步完成这样一个证明工作。”

  如今数据技术纷繁复杂,刘汪根认为,数据库是承载数据技术的产品形态。产品形态的核心是有可复制性,可复制性的核心分为两个方面,一是上面有生态,二是上面有应用。对数据库而言,原来的应用都是围绕数据库打造,所以数据库上面天生有丰富的生态,容易落地。

  对于分布式数据库而言,其生态和成熟度还需要进一步强化,需要更多真实场景打磨。刘汪根指出,分布式数据库的替代市场非常重要,虽然未来增量市场的规模会更大,但是存量的替代市场是证明数据库的成熟度和产品能力的市场,通过替代市场的成功,才能打磨好产品,积累品牌口碑。如此,才能更好地拓展增量市场。

  展望2023年,星环科技的态度是“谨慎的乐观。”信创浪潮为国产数据库提供了时代机遇,海量数据爆发和降本增效的需求为分布式数据的发展带来了大量的需求场景,数据库作为发挥数据要素价值的IT基础设施,在数字经济时代变得更为重要,未来每个厂商每个团队都需要战战兢兢如履薄冰地去探索。刘汪根强调,金融等企业领域会比较关注Oracle的兼容性,这也是星环科技的重点研发方向,此外,分布式数据库的性能、易用性、稳定性和安全性都需要不断优化,创新无止境,星环科技将不断努力打造自己的第二增长曲线。

0
相关文章