随着物联网等新兴技术的加速发展,传统企业纷纷开始进行数字化转型。在此过程中,数据技术的重要性不言而喻。作为企业发展的宝贵资产,数据处理能力与业务发展需求息息相关,数据架构的迭代升级也是企业在数字化转型下持续探索的一大主题。
8 月 13 日,由涛思数据举办的前沿数据技术交流盛会「 TDengine 开发者大会」在北京·昆泰嘉瑞文化中心正式举办。在本次大会上,涛思数据创始人陶建辉、小米集团副总裁崔宝秋博士、明势资本创始合伙人黄明明等数十位重磅嘉宾,为与会者贡献了关于开源、基础软件的未来趋势解读,以及有关物联网、IT 运维等项目的数据架构升级经验。同时,涛思数据宣布了 TDengine 3.0 的重磅发布,并一一揭秘了其核心特性,诸多颠覆性创新思路让参会者一睹为快。
“百家争鸣”
思想碰撞下定位开源与基础软件的未来
TDengine 从 2019 年 7 月就宣布了核心代码开源,2020 年 8 月又宣布了集群开源,在开源力量的影响下,发展 5 年,TDengine 的用户实例已经接近 14 万例,发展了 100+ 企业用户。
一直以来,TDengine 的技术创新都是以用户需求为出发点。本次大会也邀请到了京东科技 IoT 产品部技术总监闫政和中通科技资深架构师黄国石来到现场,为与会者讲述 TDengine 在京东云物联网产业场景及中通物流配送业务下车联网服务平台的应用故事。
作为一种新的商业创新模式,开源的力量我们有目共睹,但关于开源的价值和意义,一千个人眼中有一千个哈姆雷特,百万个人心中有百万种定义。在大会主论坛上,小米集团副总裁崔宝秋博士带领大家回归开源的本质,探索开源的意义。
图/小米集团副总裁崔宝秋博士
他表示,在互联网、大数据和人工智能时代,开源是人类技术进步的最佳平台和模式,但开源并不只是一种提升技术品牌的方法、抑或是软件分发的手段,它的出发点应该是利他主义和长期主义。“德不孤,必有邻”,开源项目如果一开始就秉承开放、共享、平等、协同、创新的开源之道,一定会有非常多的共建者自愿加入。
一定程度上,开源的力量帮助 TDengine 赢得了国内外的市场,成为众多企业的首选时序数据库之一,但如果想要持续成功,技术上也要不断的创新,始终领先于“copy”者,只有这样才能真正实现开源的“利他主义”和“长期主义”。
图/TDengine 创始人陶建辉
在 TDengine 创始人陶建辉带来的《高性能、云原生的极简时序数据处理平台》分享中,我们看到了 TDengine 从 1.0 到 2.0 再到 3.0 的不断迭代升级,技术的发展也在反哺着开源社区,短短三年间,TDengine 在 GitHub 上的 star 数已经超过 18.8k,issue 数达到了 15921。而新鲜出炉的 TDengine 3.0,打造的云原生数据库、极简时序数据平台、便捷的数据分析等特点更是对时序数据库进行了重新定义。
尽管中国基础软件领域已经出现了诸如 TDengine 等数百个国产替代产品,但市场仍然被 Windows、Linux、MySQL、Oracle 等海外玩家垄断。无论是数据库还是操作系统软件,国内的市场几乎一片空白。在这种发展现状下,中国基础软件的下一步路要怎么走?
图/明势资本创始合伙人黄明明
明势资本创始合伙人黄明明认为,二十一世纪以来,中国制造业崛起,亟需与之匹配的基础软件,而根植于上一代领先制造业玩家的基础软件产品,已经难以满足更大产值、更大场景、更新玩家的需求,中国企业在新一代基础软件战场上大有可为。在这种有利背景下,技术的开放开源可以成为基础软件占领市场的一种手段,它将帮助企业打破信任瓶颈,向海外市场进军。
可以说,用好开源,国内软件市场就有望突出重围,开放开源已经成为颠覆基础软件现有市场格局的重要手段。但在开源已经成为趋势的当下,开源想要成功也需要正确的“道”与“术”。在主论坛的圆桌讨论环节,几位嘉宾就以此为主题进行了一轮思想碰撞。
本次讨论的一个共性思想就是开源想要成功,产品本身的调性和创新非常重要,开源项目被打造出来的初衷一定是想要解决某些场景的共性痛点问题,做有价值的事情,而想要持续吸引用户和开发者,还需要技术创新来不断产生新鲜的血液。此外,开源项目一定要具有全球化思维,可以通过拥抱云原生等新兴技术来打通国内外的开源市场。
“技术与创新”
TDengine 3.0 带来时序数据库的革命性突破
TDengine 3.0 的重磅出炉让一众参会者瞩目,为了让TDengine 社区开发者、关注者和企业用户更加全面地了解了 3.0 的相关技术和功能,在大会下午的核心技术专场上,核心研发人员进行了一系列关于 3.0 的功能点及核心技术的演讲。
近些年来,虽然市面上的时序数据库产品层出不穷,但业内的诸多难题还未解决,包括与延迟相关的 High-Cardinality 问题,靠第三方工具实现流处理、缓存和数据订阅功能所带来的复杂度问题,没有真正实现云原生问题等。TDengine 3.0 正是在这种背景下应运而生的。
作为一款真正的云原生时序数据库,TDengine 3.0 重构了分布式架构,引入 RAFT 一致性协议,可以支持 10 亿个时间线、100 个节点,彻底解决了时序数据处理里的“高基数”问题;完善并优化了对消息队列、流式计算和缓存的支持,可作为一个极简的时序数据处理平台,解决了系统设计复杂且难以维护的问题;对计算引擎进行了全新设计优化,可提供便捷、完备的数据分析功能。
此外,TDengine 从 1.0 到 2.0 再到 3.0,存储引擎也在一路升级,TDengine 3.0 更是对存储引擎进行了全新实现,包含“多引擎混合存储”、“针对多维度时序数据的存储优化”两大创新点。此前,TDengine 凭借“一个设备一张表”、“超级表”的两大创新设计,已经实现了较高的存储性能,在 3.0 对存储引擎进行优化升级后,存储性能更上一层楼。
除上述 3.0 的诸多特色外,TDengine 还提供了众多的辅助功能:支持更强大灵活的标签索引、基于时间段的预计算、支持 Schemaless 以及更多的写入协议、支持 Grafana、Google Data Studio 等众多第三方工具,支持数据增量备份、异地容灾、边云协同等。
目前 3.0 的所有核心代码也已经在 GitHub 上正式公开,方便 TDengine 的关注者和支持者下载并体验。
开源地址:https://github.com/taosdata/TDengine
“发展与实践”
物联网、IT 运维的数据架构升级经验
物联网、IT 运维等场景下,海量碎片化设备和巨量时序数据给企业平台发展带来了一系列新的要求和新的技术挑战。本次大会邀请了顺丰科技、跨越速运、OPPO、韵达和观测云等一众企业客户,分享他们在物联网、IT 运维场景下的数据架构升级经验。
在顺丰科技的大数据监控平台中,此前采用的 OpenTSDB+HBase 的全量监控数据存储方案,存在依赖多、使用成本高和性能无法满足数据处理需求等问题。为此顺丰科技决定对全量监控数据存储方案进行升级,最终在 IoTDB、Druid、ClickHouse、TDengine 几款数据库中选择了 TDengine 并进行实际应用。
顺丰科技大数据平台研发高级工程师尹飞表示,完成改造后,顺丰大数据监控平台摆脱了对大数据组件的依赖,有效缩短了数据处理链路。在写入和查询方面均有显著提升,同时服务端物理机由 21 台降至 3 台,每日所需存储空间为 93GB(2 副本),同等副本下仅为 OpenTSDB+HBase 的约 1/10,在降本增效上显示出了非常大的优势。
无独有偶,OPPO 的穿戴产品类业务具有写入量巨大且存在离线/历史数据补录(更新)的处理需求,从提升用户体验角度来讲,还要具备高效的读写效率以及消费类数据的长时间保存。此前使用的 MongoDB/MySQL 集群方案,后端存储压力较大,需要经常扩盘,同时各个集群都比较独立,维护和需求开发成本相对较高。
“经历了从 MySQL 到 MongoDB 再到 Prometheus 最后到 TDengine 的架构选型之路,我们的选型要素主要有三点:首先,以业务为中心,找到业务中需要解决的关键问题,通过对比不同架构选型的表现结果进行筛选;其次,系统要最少修改,即通过较少的改动就能构建新的架构业务能力;第三,最易接入,在这一点上,丰富的读写兼容接口相当重要,这便于端侧业务的扩展。”OPPO 云计算中心高级后端研发工程师唐恒建表示。
除了上述两家企业,韵达、观测云和跨越速运在数据架构改造前同样有诸多问题。韵达此前采用 MySQL 分区+索引方式处理订单扫描量,面对每日亿级的数据量,MySQL 出现性能瓶颈,维护成本显著增加;观测云此前使用的 InfluxDB,出现 HA(高可用)集群模式无法水平扩容,写入性能约等于单机,且某云上 InfluxDB 云产品的高可用集群版顶配规格仍无法满足性能要求等等问题;跨越速运则是采用 HBase 处理车载定位设备数据,在需要查询较大跨度时间数据时,系统的性能就会显著下降。
在应用 TDengine 进行系统改造后,韵达的写入速度和查询性能都有了显著提升,写入速度大概为每秒 5000 行、常用的查询基本可以在 1 秒之内完成;对于观测云来说,TDengine 的逻辑设计使得其既可以满足高可靠,又能够满足大数据量级的读写需求,可以很好地支撑住多租户模式下的系统性能;跨越速运的日增磁盘大小从之前的单台 22GB 下降到 1.4GB,机器资源大幅减少,运维成本显著降低。
从这些企业的经验中我们能看到,对于企业数据架构升级,切中业务痛点才是最重要的。在多家企业的数据架构改造实践中,TDengine 都展现出了强大的读写性能和数据压缩能力,帮助企业解决了各种大数据处理难题。相信随着 3.0 的优化,TDengine 可以更好地融入到物联网、车联网、IT 运维等使用场景中。
结语
本次开发者大会的成功举办,不仅是 TDengine 大力服务开发者和用户的一个标志性事件,也为整个行业的技术进步和未来发展贡献了不小的力量,为关注开源的开发者提供了众多创新性观点。
TDengine 3.0 的出炉彻底解决了业内的“High Cardinality”问题,作为一款真正的云原生数据库,它也为时序数据库的发展带来了一场革命性的突破。未来已来,瞄准世界科技前沿,数字化时代下新的数据架构发展道路已经明朗。