凉凉了吗?谈向量数据库的兴与衰

B站影视 2025-02-24 19:06 1

摘要:过去几年里,我观察到嵌入技术从大科技公司的“秘密武器”变成了普通开发者的工具。接下来发生的事情——向量数据库的淘金热、RAG(检索增强生成)的炒作周期,以及最终的调整——教会了我们关于新技术如何在更广泛的生态系统中找到自己的位置的宝贵经验。


向量数据库基础设施类别的兴衰

过去几年里,我观察到嵌入技术从大科技公司的“秘密武器”变成了普通开发者的工具。接下来发生的事情——向量数据库的淘金热、RAG(检索增强生成)的炒作周期,以及最终的调整——教会了我们关于新技术如何在更广泛的生态系统中找到自己的位置的宝贵经验。

嵌入技术走向主流

曾经属于科技巨头的领域,现在正成为开发者的标准实践。十多年来,像Google、Meta和Amazon这样的公司使用嵌入技术大规模地推动推荐系统和搜索功能。这些技术现在通过预训练模型和改进的工具变得对开发者更加可及。

通过深度学习,我们可以将几乎任何类型的内容——文本、图像、视频、音频、代码——转化为捕捉数据中模式和关系的向量表示。虽然这些技术在表示学习研究中有着深厚的根基,但今天的革命性变化在于它们的可访问性。强大的预训练模型和直观的API将曾经复杂的研究转变为日常开发者的实用工具。

这些嵌入技术使得开发者能够构建以前只有拥有庞大研发预算的科技巨头才能实现的功能。嵌入生态系统在多个方面蓬勃发展。像OpenAI、Cohere、Jina和Voyager这样的商业提供商提供高质量的托管模型(主要是文本),而开源社区则生产了强大的替代品,如Sentence Transformers。HuggingFace已经成为分享和发现这些模型的实际平台,提供数千种适用于不同语言、模态、领域和任务的嵌入模型。他们的transformers库和模型中心使得实验不同的嵌入方法变得轻而易举。

结果呢?那些曾经是大型科技公司高级机器学习团队专属的方法,现在正被整合到日常应用中。无论使用商业API还是开源模型,开发者可以根据成本、定制化和部署需求选择最适合他们的方式。以前难以有效搜索的内容——视频、播客转录、技术图表、科学论文——现在可以通过新的方式表示,从而实现更复杂(也更有效)的检索系统。

向量数据库的兴衰

嵌入技术应用的爆炸性增长带来了一个新的挑战:如何高效地存储、索引和搜索这些大规模的高维向量。这一空白催生了向量数据库类别,Pinecone等公司在2022-2023年通过定义专门的向量操作基础设施引领了这一潮流。在ChatGPT于2022年底发布后,开发者们纷纷涌向构建使用RAG(检索增强生成)的AI应用,这一类别经历了爆炸性增长。这部分是由于一种广泛的误解,即基于嵌入的相似性搜索是检索LLM(大语言模型)上下文的唯一可行方法。由此产生的“向量数据库淘金热”吸引了大量投资和关注,尽管传统的信息检索技术对于许多RAG应用仍然同样有价值。

然而,局势迅速演变。最初的纯向量搜索引擎现在正在扩展其功能,以匹配传统搜索功能。向量数据库提供商认识到,现实世界的应用往往需要的不仅仅是相似性搜索。他们越来越多地添加过去属于传统搜索引擎的功能,如过滤、分面和文本搜索能力。

这种融合反映了一个更深刻的认识,即单纯的向量搜索不足以满足实际的现实世界需求。没有什么比Elasticsearch的演变更能说明这种融合了。作为搜索市场的领导者,Elastic认识到嵌入搜索的潜力,并开始将这些能力整合进来。2024年,他们将Elasticsearch重新定位为“一个全面整合向量数据库的搜索引擎”,承认现代搜索应用需要传统的基于文本和向量的操作。这一转变不仅仅是营销手段——Elasticsearch通过优化的索引结构增强了其向量搜索实现,并增加了对高效近似最近邻(ANN)搜索算法的支持。通过将向量搜索能力直接引入他们的搜索平台,Elastic表明未来的搜索在于结合传统搜索功能(如相关性评分和文本分析)与嵌入技术。他们的方法验证了行业内许多人已经认识到的事实:向量搜索不是一个独立的类别,而是现代搜索工具箱中的一个重要能力。

与此同时,老牌数据库供应商对这场淘金热几乎毫不掩饰地嗤之以鼻。他们没有将向量搜索视为一个独立的类别,而是将其直接整合到现有产品中。PostgreSQL、MongoDB、Redis等纷纷增加了对向量数据类型和相似性搜索操作的原生支持——将其视为添加新索引类型一样平常。从他们的角度来看,向量只是另一种需要索引和查询的数据类型,类似于文本、数字或地理空间坐标。这种整合简化了许多应用的架构,使开发者能够在熟悉的系统中管理向量操作,与传统数据工作负载并行,而无需说服CTO采用另一种专门的数据库。

然而,将向量类型添加到现有数据库并不是看上去那么简单。虽然存储和检索向量是一回事,构建一个复杂的检索系统则是另一回事。许多这些数据库缺乏精细的排名机制、相关性调优和经过实战测试的文本匹配算法(如BM25),而专门的搜索引擎则在这些方面有着数十年的积累。这就是为什么那些重视搜索质量的公司仍然选择专用的搜索引擎,而不是将他们的数据库视为万能解决方案的原因。实际上,高质量的信息检索需要一个深厚的工具箱,其中包含超越简单向量相似性计算的排名策略和相关性优化功能。就像没有人会用普通数据库来驱动电商搜索一样,添加向量功能也不会突然将SQL数据库变成一个完整的“检索引擎”。

结论

回顾过去,我们显然过于复杂化了事情。虽然嵌入技术从根本上改变了我们表示和比较内容的方式,但它们并不需要一个全新的基础设施类别。我们称之为“向量数据库”的,实际上是具有向量功能的搜索引擎。市场已经在纠正这种分类——向量搜索提供商迅速添加传统搜索功能,而老牌搜索引擎则整合向量搜索功能。这种类别融合并不意外:构建一个好的检索引擎一直是关于结合多种检索和排名策略的。向量搜索只是工具箱中的一个强大工具,而不是一个独立的类别。

来源:dbaplus社群

相关推荐