在电商的繁华世界里,每一次你轻松找到心仪商品、每一次个性化推荐精准触达,背后都有一个默默奉献的“智慧引擎”——那就是向量数据库。
这个强大的工具,如同一位高效的助手,助力我们在海量的图片、文本、视频中迅速定位所需信息,从而让电商平台的搜索、推荐等功能更加智能、快捷。
eBay,作为电商领域的领军者,对于如何驾驭这一智慧引擎有着独到的见解和丰富的实践经验。早在2020年,eBay便已开始深入探索向量数据库技术,其初衷是为了提升图片检索和推荐的能力。通过巧妙的向量相似度计算,我们迅速实现了相似图片的快速查询,并逐步将这一先进技术延伸至文本、视频及多模态领域。
最近,随着大模型技术的风起云涌,向量数据库再次成为业界瞩目的焦点。ITPUB记者也有幸采访到了eBay资深架构师朱冠胜,他以电商用户的独特视角,为我们深刻剖析了向量数据库选型的核心要素,并分享了在实际运用过程中遇到的种种挑战与应对策略。
核心考量:低延迟、高可靠性与扩展性
采访开始,朱冠胜强调,在选型过程中,低延迟、高可靠性和扩展性是企业必须仔细权衡的三大关键因素。
低延迟
对于搜索、推荐和个性化等实时性要求极高的场景,低延迟是用户采用向量数据库的首要考量。一个优秀的向量数据库应该能够在极短的时间内响应用户的请求,确保流畅的用户体验。目前,eBay的系统已经实现了在k值100以内,p99延迟在20-30毫秒的优秀性能,这样的响应速度对于应用层来说是完全可接受的。低延迟不仅提升了用户满意度,还直接影响了业务转化率和系统整体性能。
业界专家普遍认为,低延迟是评价向量数据库性能的重要指标之一。随着电商平台的竞争日益激烈,用户对响应速度的要求也越来越高。因此,具备低延迟特性的向量数据库将成为未来电商行业的重要选择。专家指出:“在实时搜索和推荐场景中,每毫秒的延迟都可能影响用户的满意度和转化率。因此,低延迟是向量数据库必须追求的目标。”
这种快速的响应不仅提升了用户满意度,还直接影响了业务转化率和系统整体性能。
高可靠性
可靠性是系统服务的基石,对于向量数据库而言尤为重要。向量数据库的可靠性受多种因素影响,如向量数据的更新方式等。
目前,向量数据更新主要有批量更新和流式更新两种方式。批量更新会替换整个向量索引,可能导致服务短暂中断;而流式更新则能在不影响服务的情况下更新现有索引,从而提高系统的可靠性。在选择向量数据库时,必须充分考虑其可靠性表现,确保系统能够稳定运行,数据安全无忧。
扩展性
关于扩展性,业界也有共识。随着数据量的不断增长和业务需求的不断变化,向量数据库的扩展性变得尤为重要。一个优秀的向量数据库应该能够轻松应对数据量的增长,并支持动态增加索引功能等需求。
这样的扩展性不仅能够满足当前业务的需求,还能为未来业务的发展提供有力支持。在选择过程中,用户需要对数据库的分布式架构设计、数据分区策略以及负载均衡机制进行全面评估,确保其具备良好的扩展性。
eBay向量数据库自研之路
在数据处理与检索技术领域,eBay选择了一条与众不同的道路:自研向量数据库。究其原因,是因为当时市场上现有的向量数据库产品无法满足eBay对低延迟、高可靠性和扩展性的严格要求。
在自研的起步阶段,虽然团队规模有限,但成员们凭借卓越的专业技能和坚定的决心,在短短六个月内便成功构建了一个初步的向量数据库系统。该系统巧妙地将所有索引存储在内存中,从而确保了快速的响应速度,完美契合了电商场景下对实时性的严苛要求。
然而,随着业务的迅猛发展和数据量的激增,单机版向量数据库逐渐暴露出其局限性。为了应对这一挑战,eBay团队在次年对系统进行了全面升级,成功将其从单机版迁移到分布式版本。这一重大改进不仅显著提升了系统的数据处理能力,更进一步增强了其可靠性和稳定性。
在自研过程中,团队也面临了一系列技术难题。其中,内存占用过大成为了一个亟待解决的问题。由于向量数据的高维特性,其存储和处理对内存资源的需求极高。为了攻克这一难题,团队通过精心优化数据结构和改进存储及检索算法,成功在保持高性能的同时降低了内存占用。
此外,随着业务需求的不断变化和数据量的持续增长,如何确保向量数据库的扩展性和灵活性也成为了团队必须面对的挑战。为了应对这些挑战,eBay团队不断探索和创新,通过引入分布式架构、优化数据分区策略等先进手段,逐步提升了系统的扩展性和适应能力。
目前,eBay在生产环境中已经成功部署了这款自研的向量数据库,其低延迟特性得到了充分验证。然而,团队也清楚地认识到,系统仍存在一些值得改进的地方。例如,当前的数据更新机制是在内存中进行实时切换,这在新数据加载时可能会对性能产生一定影响,直到新老数据切换完毕服务才能恢复。同时,过滤条件对数据返回时间有显著影响,尽管团队已经考虑通过建立索引和分区来优化性能,但内存占用问题仍然存在。最后,随着数据量的不断增长,索引的生成时间也在逐渐延长,目前尚缺乏一个动态机制来确保索引生成的可扩展性,并保证在规定时间内完成索引生成。
选型:开源方案的优势与产品的改进空间
采访最后,谈到向量数据库的选型,朱冠胜表示开源向量数据库产品经过几年的打磨,其成熟度和稳定性已显著提升,性能也更为出色。此外,开源社区对新算法和性能优化的快速响应,以及良好的互动和贡献机制,都是其相较于自研方案的优势所在。特别是在生态兼容和支持方面,开源方案对大模型领域如RAG等的支持反应更为迅速。同时,企业级向量数据库的收费价格也是开源方案的一个重要考量因素。
在谈到市场上如Pingcone、Milvus、Weaviate等向量数据库产品时,朱冠胜认为,尽管这些产品功能强大且能满足多数应用场景,但仍存在改进空间。他特别提到了生成向量流程的标准化问题。目前,用户需要额外部署向量生成模型,这增加了使用的复杂性。因此,向量数据库产品可以进一步标准化向量生成流程,以简化数据接入和查询过程。
另外,朱冠胜也强调了向量数据成本的问题,包括硬件成本和授权费用。他认为,降低这些成本是降低向量数据总成本的关键。同时,从业务场景的角度来看,如果向量数据库能与现有数据平台打通,将极大地便利数据的迁移和集成,从而更好地服务于各种应用场景。这将有助于提升向量数据库的整体应用效果和用户满意度。
|嘉宾介绍|
复旦大学计算机硕士学位,拥有十余年机器学习工具平台的研发经验,风控领域专家。硕士毕业就职于PayPal风控部门成长为资深架构师,负责风控模型相关的开发工具以及ML平台研发和架构。目前任职于eBay AI平台资深架构师,负责变量平台(feature store)、模型训练平台、模型推理平台的架构和核心组件研发, 近期关注在LLM/GenAI相关的平台功能建设,包括异构训练集群整合,AI监管,向量数据库以及大规模AI解决方案等支持。非常荣幸能与大家交流向量数据库的研发,运维以及LLM生态的经验。