近日,高顿教育技术总监张国裕深入分享了他们在向量数据库领域的独到见解及实际应用案例。
在数字化浪潮中,向量数据库已成为技术创新的重要推动力。随着大数据和人工智能的蓬勃发展,众多企业逐渐领略到向量数据库在数据处理与分析中所蕴含的无穷能量。
技术赋能:数据处理提速,个性化教学
张国裕提到,自2023年3月起,高顿教育便开始积极引入向量数据库与大模型技术。这一战略决策主要归因于大模型对于数据向量化的先决需求,而向量化则必然涉及到对历史数据的高效存储。他们敏锐地发现相对传统搜索引擎(如结构化数据库、ES等),向量库有近似查询、海量数据快速搜索、多模态数据分析等优势,天然契合大模型。事实上,他们对向量数据库的认识可追溯到两三年前涉足图数据库研发之际,那时便已萌生了利用向量进行对比的初步想法。在职业教育领域,以粉笔教育、华图等为代表的企业也紧随其后,积极拥抱新技术变革,将向量数据库运用于知识库的构建之中。这一转变揭示了一个显著趋势:传统的结构化和半结构化数据正大规模地迁移至向量数据库中,以便进行更为精准深入的数据分析和价值挖掘。
目前市场上,主流的向量数据库如Milvus、Qdrant和Pinecone等开源产品深受中小型公司的青睐。而诸如腾讯、阿里等大型互联网公司则更倾向于自主研发向量数据库,这得益于向量数据库技术的相对透明性,特别是在算法层面的开放性。同时,存在一些中大型企业既不愿自主研发,也不希望完全依赖开源产品,他们更偏向于选择采用第三方的商业化向量数据库,例如Zilliz及腾讯、阿里的向量数据库产品等。在初始阶段,大多数企业都更倾向于使用免费的Milvus、Qdrant等开源产品来降低成本门槛。
张国裕表示,在过去,数据处理主要依赖于数据工程师将零散混乱的业务数据转变成高质量的数据资产,或者将数据从质量不高的原始状态转变为高质量的结构化或半结构化数据。这一过程繁琐且耗时,对数据工程师的技能要求也较高。然而,随着向量数据库的引入,这一情况得到了显著改善。
向量数据库允许企业将相对不那么“干净”的数据直接导入,通过向量化的方式进行处理和分析。这一技术降低了对数据清洗的依赖,简化了数据处理的流程,从而大幅提高了工作效率。此外,向量数据库还能够处理大量的非结构化数据,如文本、图像、音视频、网页等,为教育行业提供了更丰富的数据来源和分析维度。
更重要的是,向量数据库通过高效的相似度匹配和查询功能,为教育行业带来了全新的数据分析体验。教师可以利用向量数据库快速检索到与特定主题或概念相关的教学资源,从而为学生提供更加个性化和精准的学习内容。同时,向量数据库还支持复杂的数据分析和挖掘任务,帮助教育机构深入了解学生的学习行为和需求,进而优化教学方法和课程设置。
构建智能知识库与大模型问答
高顿教育在采纳向量数据库后,其在知识管理、搜索精准度和业务效率等方面均获得了显著提升。张国裕通过具体的细节阐述了向量数据库在教育行业的价值。
在知识管理方面,高顿教育之前面临着复杂的数据清洗和建模工作。大量的学员数据,包括做题历史、课程视频观看记录、线下课程参与情况等,都需要被仔细整理并转化为可用的知识。然而,传统的数据库处理方式要求数据必须以特定的结构化或半结构化格式存储,这导致了大量的前期准备工作。而向量数据库的出现彻底改变了这一状况。现在,高顿教育可以直接将数据库、原始文档(word、pdf、excel等)、HTML等格式的知识导入向量数据库中,无需进行复杂的数据转换。这不仅简化了知识管理的流程,还大幅减少了数据清洗和建模的时间成本。
在搜索精准度方面,向量数据库通过高效的相似度算法,实现了对知识的精确匹配。在高顿教育,教师可以通过输入几个关键词,迅速找到与之高度相关的教学资源。这种能力在以前是无法想象的,因为传统的数据库搜索方式往往只能基于固定的标签或分类进行,而无法实现如此精细化的匹配。通过向量数据库,教师可以更准确地把握学员的学习需求,从而提供更具针对性的教学内容。
在业务效率方面,向量数据库的易用性赋予了业务人员更大的自主性。以往,业务人员在与技术团队沟通时,常常因为数据格式、搜索需求等问题而产生摩擦,导致项目进展缓慢。而现在,业务人员可以直接在向量数据库中进行操作,无需等待技术团队的支援。他们可以根据实际需求,通过调整导入方式、知识段、构建索引等形成业务知识库,并不断调整prompt形成业务应用bot,从而更快地响应市场动态和学员需求。
此外,通过结合大模型和向量数据库,高顿教育能够为用户提供更加智能化、精准化的教育服务。大模型负责理解用户意图,而向量数据库则提供精准的知识匹配和检索。当用户询问关于公务员考试等问题时,系统能够迅速从历史数据中提取相关信息,并结合用户当前情况,给出个性化的备考建议。这种服务模式不仅提升了教育质量,还展示了人工智能技术在教育领域中的巨大潜力。
向量数据库,稳中求快、确保精准
作为高顿教育的技术总监,张国裕在选择向量数据库时,主要考虑了几个关键因素。即稳定性、查询效率和幻觉问题。
稳定性是数据库的基石,它对于保障学员学习进程的连贯性和维护他们对教育机构的信任至关重要。张国裕曾透露,他们在半年前遇到过两三次向量数据库写入失败的问题,这种失败在未能及时捕获异常的情况下,导致了许多学员输入问题后得到的答案极不准确。因此,在选择向量数据库时,张国裕将稳定性放在首位,通过通过严格的评测来确保数据库在各种情况下都能稳定运行,为学员提供一个可靠的学习环境
然而,仅有稳定性还不足以满足学员的需求。在快节奏的社会背景下,学员对信息获取速度的要求也越来越高。因此,查询效率成为张国裕选择数据库的另一个关键因素。一个高效的向量数据库能够迅速响应学员的查询请求,让他们能够及时获取所需信息。借助向量数据库的高效相似度匹配算法,高顿教育实现了对知识的快速精准匹配,从而大幅提升了学员的学习效率。
随着教育服务的不断深入和细化,幻觉问题也变得越来越重要。特别是在为学员提供个性化推荐、简历优化、AI面试等高级服务时,必须确保给出的建议或答案与学员的实际情况高度契合。一个经常出现“幻觉”的数据库无法满足这种精准需求。因此,在选择向量数据库时,张国裕对其准确度进行了严格的把控和测试,以确保其能够为教育机构提供精准、可靠的数据支持。
写在最后
张国裕表示,向量数据库的使用在开始阶段简单直接,其算法和结果相对明了,技术门槛并不高。然而,随着应用的深入,尤其是在复杂业务场景中,我们面临着一系列挑战,这些挑战并非源于技术本身的复杂性,而是与稳定性、性能优化和业务整合等实际应用问题紧密相关。
随着公司业务的快速发展,高顿教育开始与各类供应商进行深入交流,包括海外的大模型供应商如微软、谷歌,以及国内的科技巨头如腾讯、阿里、字节、百度等等。尽管他们并非专门的向量数据库供应商,但他们在大数据处理、系统稳定性和性能优化方面的丰富经验。同时,高顿教育也与国内专注于向量数据库的公司如zilliz进行交流,以了解行业内的实践和解决方案。
在数字化教育革新的道路上,向量数据库正展现出其强大的潜力和价值。高顿教育的实践案例不仅证明了向量数据库在提升数据处理效率、精准匹配知识资源以及优化业务效率方面的显著优势,更预示着这一技术在未来教育行业中的广阔应用前景。
|嘉宾介绍|
张国裕
高顿教育技术总监
目前主要负责AI平台、直播点播、Matrix、AI面试等中台能力建设以及会计、公职等业务系统建设。曾在华为、新奥担任后端开发、安全架构师、PL、研发总监等角色,先后参与建设BSS、安全网关、华为云、大数据平台、情报分析等系统。