随着数据的海量增长,用户对半结构化处理的能力要求越来越高,搜索型数据库受到越来越多企业的关注。
IT168&ITPUB启动《搜索型数据库选型指南》选题,调研采访一线专家,了解搜索型数据库的发展现状,梳理企业机构在搜索型数据库选型时的重点关注因素,供业内参考。
本期我们邀请到星环科技资深产品市场经理李昆,他指出,搜索型数据库主要应用于综合检索分析、全景观测、一站式检索平台等场景,随着AI大模型、RAG技术发展,为搜索型数据库带来新的发展空间。
搜索型数据库发展与场景应用
随着数字化转型不断深入,企业业务变得更加多元复杂,非结构化与半结构化数据的分析需求越来越旺盛,数据量也越来越大,传统关系型数据库对于文本的多样性检索支持能力不足,催生了搜索型数据库的发展。
李昆指出,作为NoSQL数据库的一种,搜索型数据库独特的倒排索引结构,具备高实时检索能力,可以处理包括结构化数据、半结构化数据和非结构化数据等多种类型数据。按照目前人们的检索使用习惯,它更偏向于全文检索引擎这一种使用方式,并结合了一系列 NoSQL 数据库的特点。
搜索型数据库的发展历史可以追溯到20世纪90年代,当时主要以全文检索为技术手段,最初用于文档检索和网络搜索。典型代表包括 AltaVista、Excite 等。随着互联网的快速发展,搜索引擎技术得到了广泛应用,Lucene、Sphinx 等开源搜索引擎的出现,以及Google等搜索引擎的成功推动了搜索型数据库技术的进步。
移动互联网与大数据技术的兴起进一步推动了搜索型数据库的发展,以 Solr、ElasticSearch 为代表的开源搜索型数据库逐渐成为主流,为搜索型数据库的发展提供了丰富的技术支持和生态系统。
现代搜索型数据库逐渐向多模数据库发展,能够支持多种数据类型以及更多样化的查询方式。同时随着人工智能和机器学习技术的发展,搜索数据库逐渐向智能化转型,开始引入机器学习、自然语言处理、大模型等技术,提供个性化推荐和智能搜索服务。
整体来看,搜索型数据库有以下主要应用场景:
综合检索分析:包括信息检索、推荐系统、广告系统等多种对综合检索有需求的场景;
全景观测:主要针对于企业内整体系统的管理与监控,包括对各类日志、指标等信息的统一收集、存储、实时分析,提升企业运维效率,如制造业的生产过程监控,IT管理部门的集群运维等等;
一站式检索平台 :构建企业级知识库,提供全方位检索,提升用户检索效率与体验,如论文管理、社区论坛管理、企业项目数据搜索等等;
一直以来,对多样性数据的支持能力、检索实时性提升、多模联合分析能力、与其他产品生态的融合是搜索型数据库发展的重点也是难点,解决这些问题也为从业者带来了机遇。技术的供给和业务需求的变化推动着搜索型数据库不断演进,随着AI大模型、RAG技术发展,为搜索型数据库带来新的增量,让搜索型数据库的重要性越来越高。
选型:关注性能、高可用、扩展性数据安全等
数据库选型从来不是一件容易的事情,知己知彼百战不殆。
李昆介绍,不同行业对搜索型数据库有很多共性需求,包括:
全文检索能力:包括各类索引的实现、分词技术等,使得数据库可以高效处理不同类型的数据,并提供多种灵活的检索方法;
高效的检索性能:针对不同检索场景,远高于关系型数据的的秒级乃至毫秒级检索响应;
更大数据量的支持:针对更大的数据体量,产品的水平拓展能力以及大规模集群的稳定性,也是客户在做集群长期规划需要考虑的一环;
国产化与信创支持:对国产软硬件的兼容适配。
此外,不同行业的业务场景不同,对搜索型数据库的需求也存在差异。比如金融场景更偏统计分析的计算,知识库场景更偏语义、分词类的全文检索,在部分行业还存在一些特殊的定制化检索需求。
企业在进行搜索型数据库选型时会关注功能、性能、稳定性、高可用、扩展性、数据安全、性价比、国产化、技术服务保障等多方面因素。
比如,性能方面,需要支持读写分离,秒级查询与检索,满足高并发需求,同时,支持实时、微批数据接入方式;扩展性方面,要满足海量数据的存储与检索,100+集群稳定运行,分布式架构会是普遍的选择;高可用方面,出现故障时,主副本要保障数据一致性,TB级数据量重启恢复时间控制在分钟级等。
李昆介绍,从技术路线来看,现在市场上搜索型数据库主要有以下三类产品:一是,由Lucene等搜索内核封装与扩展,最典型的就是Elasticsearch、Solr,此外还有一系列Elasticsearch的商业化分支产品;二是,相对独立的商业检索产品,如Splunk;三是,基于其他关系数据库或者NoSQL数据库进行检索能力的拓展,如PostgreSQL、MongoDB等。
“第一类技术路线仍然是目前的使用主流趋势,使用人群基数大、开源社区等技术力量也最丰富;另一方面是从商业化角度来看,用户基础与习惯已经养成,过于差异化的产品在推广上存在比较大的难度。”李昆说。
星环科技分布式搜索引擎Scope便是第一类技术路线的代表,定位是Elasticsearch的国产化替代与升级。同时Scope也不是孤立的产品,与Hadoop生态中的Elasticserach类似,作为星环大数据平台体系中重要的产品组件之一,Scope能够基于多模型数据统一管理平台上满足各个场景的需求,并能够与关系型数据、图数据、时序数据等多模型数据实现跨模型联合分析。
展望:未来发展方向
经过多年的发展,搜索型数据库已经发展成为相对成熟的市场,AI带来新的挑战和机遇。李昆认为搜索型数据库未来主要有以下技术发展趋势:
智能检索:配合大模型、语义检索的发展,搜索数据库可以作为AI落地推广智能搜索重要的一环,拥抱AI。
实时检索:类似于Flink等流处理业务,用户对数据库的追求会不断往实时上靠拢,搜索型数据库也不例外,当前以准实时检索为主的技术可能会有更多的突破,满足用户对实时检索的需求。
多模融合:与关系型数据、图数据、向量数据形成统一的管理和融合,并在资源管理框架上相融合,形成一体化的管理体系。
搜索型数据库想要获得长久的发展,离不开产品力和生态力两大能力建设。产品力方面,功能、性能、稳定性等能够完全对标国外产品能力,这是本,也是基本要求。此外,能否基于新技术、新需求创新发展,提供创新能力也很关键,比如多模型、大模型检索等创新场景的支持。生态方面,能够与目前上下游产品生态做到很好地兼容适配等。