数据库 频道

金融行业向量数据库选型:聚焦高维数据、注重读写速度

  本文为《向量数据库选型指南》系列选题文章之一,对话一线厂商和用户,探索向量数据库技术发展的重点和难点,选型关注点,整理行业落地应用实践,供业内参考。

  在这个数据驱动的时代,投资者们如同航海家,不断探寻着股市的“新航路”,以期捕捉每一个盈利的“新大陆”。而向量数据库,恰如现代航海中的先进导航系统,以其强大的数据处理和挖掘能力,为股票分析和交易领域开辟出一条条精准、高效的“航线”。

  向量数据库,作为新兴技术,轻松驾驭海量的高维数据,更能洞察其中潜在的投资机会,为投资者提供了前所未有的决策助力。

  近日,ITPUB记者非常荣幸地采访到了北京第二外国语学院经济学院金融系副教授汪建雄,他对向量数据库在股票量化交易分析中的应用了如指掌。他深入解读了向量数据库在这一领域的核心价值,并大方分享了如何进行向量数据库的选型。他的宝贵经验和独到见解,无疑为那些正在考虑或已经决定应用向量数据库的用户们,提供了全新视角和实用参考。

  接下来,就让我们一起跟随这位资深用户的指引,深入探索向量数据库如何成为投资者在股市航行中的“指南针”,共同开启一段新的探索与选型之旅。

  应用场景:精细化时间序列分析

  对于汪教授而言,他的研究领域颇具挑战性:通过编程来分析执行股票的量化交易。在这个复杂的金融场景中,核心环节之一便是把最近的股票市场数据与更长周期的历史数据进行比较。

  以时间序列数据为例。这需要将每只股票的价格数据标准化,通常的做法是将价格转化为收益率,这样可以确保不同股票之间的数据具备可比性。在构建时间序列时,数据的频率成为一个关键因素。

  如果以天为单位收集数据,每只股票一年的数据可以构成一个大约240-250个数据点的序列,即一个250维的向量。进一步提高了数据的精细度。考虑到一天中有四个小时的交易时段,如果以小时为单位记录数据,那么一只股票一年的数据点数量就会增加到大约1000个。

  更进一步的,如果将数据记录的频率提高到每五分钟一次,那么每个小时就能产生12条数据,一年的数据维度就会飙升到1.2万条。如果将频率提高到每分钟,数据的维度会进一步增加到6万条。甚至,如果将数据采集的频率提高到每三秒钟一次,那么一年的数据维度将达到惊人的120万条。

  在如此大规模的高维度数据空间中,向量数据库的独特优势也就显现出来了,简单的线性搜索在高维空间中是不切实际的,因为它的复杂度随着维度的增加而指数增长。因此,向量数据库则采用更高级的技术和算法来解决这一问题。

  选型:易用性、处理能力缺一不可

  在汪教授的金融研究团队中,处理和分析A股市场上5000多只股票产生的庞大数据,是一项极为复杂且关键的任务。为了精准地探索有效的交易策略,他们需要将每只股票一个月的数据与包含6万条、每条维度高达十万维的历史数据向量进行详细比对。

  在这个过程中,找到与当前市场数据最相似的历史数据点是关键。为此,他们采用了向量数据库中的缩影算法,这种算法能迅速准确地定位到最接近的向量,为预测市场走势和制定交易策略提供了重要参考。

  面对如此大规模和高维度的数据处理需求,汪教授团队在选择数据库时非常谨慎。虽然最初考虑过使用基于PostgreSQL的开源扩展pgvector,但由于其维度限制,最终他们选择了LanceDB。这款专为AI应用设计的无服务器向量数据库,能应对高达10万维的数据处理需求(汪教授在采访中表示他们实测到了十万维),完美满足了他们的研究要求。

  LanceDB与Python语言高度兼容,也是优势之一,特别是与高性能Python计算引擎 Polars的配合使用,使得数据处理过程更加高效。此外,LanceDB自带的存储引擎和专用存储方式,使得数据调用更加直接,省去了复杂的数据转换过程,这也就意味着“读、写”更快,大大提升了工作效率。其嵌入式的特性也使得它在每个线程中都能方便地使用。

  更重要的是,LanceDB的开源性质为汪教授团队提供了更多的灵活性和自主性。他们可以根据研究需要自由修改和扩展数据库功能,从而更好地满足复杂的金融数据分析需求。

  在采访的最后,汪教授对于向量数据库的两个主流方向发表了看法。他认为,虽然传统的通用数据库上添加向量分层可以满足某些技术需求,但专用向量数据库因其简单性和专注性而更具优势。

  |嘉宾介绍|

  

  汪建雄

  北京第二外国语学院经济学院金融系副教授

  中央财经大学中国经济与管理研究院(CEMA)金融学博士。论文发表于《Technological Forecasting and Social Change》、《Frontiers in Psychology》、《世界经济》、《制度经济学研究》、《投资研究》等期刊,主持完成国家自然科学基金项目、教育部人文社科青年项目各一项,译有《金融经济学原理》、《已经发生的未来》、《谁绑架了上市公司》、《蜘蛛战略》等译著。曾于2021年1月、2022年1月、2023年3月举行的第10、11、12届PostgreSQL中国技术大会进行分享;于2022年1月、2022年10月举行第14、15届中国系统架构师大会上进行分享。

0
相关文章