与元宝推荐我采访的公司对谈——栾小凡眼中向量数据库的前世今生

B站影视 内地电影 2025-08-05 15:20 1

摘要:笔者在腾讯元宝(选择DeepSeek模型、勾选R1·深度思考、勾选自动搜索)上输入问题:“我要针对向量数据库做一次行业深度采访,请帮我列出中国值得采访的相关公司。”

向量数据库,新时代的数据库母语。

笔者在腾讯元宝(选择DeepSeek模型、勾选R1·深度思考、勾选自动搜索)上输入问题:“我要针对向量数据库做一次行业深度采访,请帮我列出中国值得采访的相关公司。”

腾讯元宝为我推荐了首选企业,它开发了全球顶尖开源向量数据库,入选Forrester向量数据库领导者象限,它是谁?

7月下旬,Zilliz CTO栾小凡接受了数据猿的采访,笔者与栾总共同探讨了向量数据库的“前世今生”。

大模型爆发之后,与之相关的全产业链都进入了新的增长期。数据作为大模型的养料,重要性不言而喻,随着非结构化数据的急剧增长,向量数据库的价值更加凸显。Zilliz作为领域内的初代玩家,2018年就进入向量数据库赛道,2019年开源了第一款产品,最早期的Milvus1.0。当时主要的目标场景是搜索广告推荐,属于传统互联网领域。

栾小凡表示:不论大模型出不出现,向量数据库的价值都会被大家逐渐意识到,它一定会在某一个点爆发,大模型的出现某种程度上推进了这个进程。

大模型的出现推动了更多数据的产生及大家对数据的需求。大模型需要更多干净的、有价值的数据,数据本身是AI应用非常大的护城河。互联网的数据是有上限的,随着生成式AI的发展,越来越多的数据会被生成出来,未来我们可能会看到更加陡峭的的数据增长曲线,向量数据库的应用场景也就会越来越多。

数据的爆发来的比想象中更快,向量数据库的价值在今天得到了充分的验证,俨然已是兵家必争的蓝海赛道。对于今天的向量数据库本身及市场,栾小凡分享了自己的观点。

1.包裹在不可能三角下的召回率

向量数据库采用模糊搜索的方式,对比传统数据库来说,召回率是一个非常重要的评判标准。栾小凡表示,提到召回率,就必须要先说向量数据库领域的不可能三角:在向量检索这个领域里,性能、成本和精确度这三个指标不可能同时满足。

如果对性能有很高的要求,同时对召回率也有很高要求,那就要付出更多成本。反过来在成本恒定的情况下,用户需要在性能和召回率之间去做取舍。

目前可以通过一些工程手段尽可能在这三者之间找到更好的折中。但向量数据库本身不是100%准确的,以量化算法为例,量化是把准确的数据进行压缩,比如把一个精度较大的整数压缩到更小的比特数,在压缩的过程中一定会有部分精度的损失,但是我们可以做的是让这个精度的损失越来越少。

2.支撑众多行业的智慧底座

向量数据库在众多行业已被广泛应用,以智能驾驶为例,栾小凡表示,智能驾驶是一个数据体量非常大的行业,它们有大量的视频、图片等数据。向量数据库在智能驾驶领域最典型的应用场景是帮助智能驾驶系统找到匹配的数据集进行训练,提升它的训练效率。Zilliz基本与国内所有头部智能驾驶公司,如理想、蔚来等,都建立了良好的合作关系。

3.赛道愈发拥挤,头部玩家的生存之道

Zilliz作为向量数据库赛道的开创玩家,在行业爆发初期确实吃到了红利。面对越来越多的竞争对手,栾小凡表示,有时不仅是竞争,更是“左手打右手”的问题。

很多公司用Zilliz的开源产品Milvus来与Zilliz企业版Zilliz Cloud竞争。Zilliz的开源产品支持了众多中国互联网公司,部分国内知名云厂商都是基于Milvus开源方案来构建自己的向量数据库方案。一方面Zilliz希望有更多用户进入到开源生态里,同时也一定要把付费产品与开源产品做出差异化。目前在这条路上,Zilliz采用的是dual core路线,即:一个开源执行引擎(KnowWhere),一个商业版执行引擎(Cardinal)。商业版相对开源版本,其操作难度相对更低;性能更加领先;可以做到用户0运维投入。但两者在接口和用户体验上几乎一致,可以无缝迁移。此外,开源版会承担部分的技术预研功能,一些新能力也会最先在开源版本发布,在社区中听取不同用户意见,共同打磨。

Zilliz从day one开始就把自己定义为全球化数据库公司。Zilliz总部设在美国,但是在美国、中国、新加坡、欧洲全球各地均有员工分布。面对行业的持续内卷,栾小凡表示要把内卷变成外卷,比如,把中国的先进生产力向全球输出,把盘子做大,不可拘泥一隅;同时也把美国的先进经验向全球的其他团队输出,共同进步。同时要做到可以为用户持续提供价值,市场的规则是优胜劣汰,也许通过一些方式短期内能获取用户,但这个事情并不可持续,比如采用低价竞争策略,最后会发现投入产出比不符合预期,因为公司最终一定还是要获取利润。

谈到数据库全球化,绕不过老大哥:PingCap。栾小凡认为,PingCap是目前中国数据库做全球化最成功的公司,它为大家指引的方向是非常清晰的。对于全球市场而言,尤其像美国这样的市场,它确实更大,整个产业链上下游所有人的利润都更加丰厚。

从Zilliz的经验来讲,首先要做到肉身全球化,人一定要去,人在不同的市场会用不同的角度思考,离中国市场更近,离中国的用户更近,思考的就是中国的问题;离美国的用户更近,考虑的就是美国的问题,其他地区也是一样。

其次一定要有足够的耐心和坚持。Zilliz 2017年成立,到2023年商业化才正式启动,中间很长一段时间没有一分钱营收,前期花了大量时间投入到研发上,包括开源社区的运营。做全球化尤其如此,有时候做全球化,就像是古代的行军打仗。我们既不能太过随意的开启一个市场/战场,因为这意味着不小的人力、资源、精力、时间的分配,可一旦下定决心,就不要很快放弃任何一个市场,因为任何一个市场可能都需要6个月、 12个月甚至更长时间才能看到回报。

我们正处于AI快速爆发的时代,每时每刻都有新的科技成果现世。向量数据库未来也将继续作为不可或缺的船帆,为科技大航海保驾护航。

1.向量数据库×大模型

面对如火如荼的AI浪潮,数据库需要做出哪些改变来更好的适配AI?栾小凡认为关键是要把搜索这件事情变得更加智能化。Zilliz在今年年初时尝试把向量检索与大模型生成结合起来,当时尝试的技术路径,部分业界人士把它称为Agentic RAG,用大模型做一个Agent,与向量数据库结合起来搜索,大模型来做一些查询的扩展、逻辑的延伸等,可以提升查询质量。Zilliz也开源了这款产品,在GitHub上收获了近7000 star。

谈到大模型的发展,栾小凡认为这是一个变化非常快的市场,没有哪个模型可以保证绝对意义上的领先。中国有非常多优秀的大模型团队,DeepSeek、月之暗面、Mini Max、通义千问等,几家大模型发展都很快。

对于大家经常提到的模型幻觉问题,栾小凡表示思考得越多幻觉就越厉害,要想减少幻觉,首先就需要更多的数据,因为幻觉本身其实是数据缺失的一种体现。但幻觉不见得完全是坏事,在某种程度上幻觉也是推理能力的延伸。可以理解为一个思维活跃的人,基于已有的信息做出了推断,这个事情并不是完全负面的,也会有一些正面收益。

模型真正的能力并不是背了多少本书,而是怎么利用已有的工具和知识解决没有见过的问题。

2.向量数据库×Agent

Agent的爆发主要来源于模型能力的提升,其实Agent的概念由来已久,2023 年时已经有人提出,但那时模型能力还没有很强。Agent memory是当下的一个热点话题,它相当于把Agent比作一个人,这个人做了很多事,有的产生了正面效果,有的则相反。Agent memory提供的能力就是记录执行过的步骤,在进行下一步动作时,利用已有信息使判断更加精确,不出现重复错误。栾小凡表示Agent memory功能的实现也是基于向量数据库,有时也会使用一些图数据库,这是目前数据库与Agent的结合中较为典型的场景。

3.向量数据库×工作替代

对于向量检索自动化替代人类基础工作这一论断,栾小凡认为短期之内还是很难,向量检索可以帮助工作人员提高效率,但难以做到完全替代。以法律和医疗行业为例,它对准确度的要求极高,带有很强的行业属性,通用的向量检索方案很难做到完全替代。

由此我们又谈论到了当下被热烈讨论的AI工作替代,栾小凡表示他对于这一言论既悲观又乐观。短期来讲比较悲观,AI替换一部分人这件事可能比我们预期的要更早,且它一旦发生就会很快,就像曾经还有打字员这样的职业,现在已经完全没有了,是不是再过五到十年,司机这个职业也完全不存在了,他认为极有可能。

但长期来看又比较乐观,这样的发展趋势可以让人把自己的精力专注在更加有价值的事情上面,这对于人类的生产总值来讲是一个提升,未来也许就不需要一周工作5天了,一周工作3天就可以。

需要指出的是,在AI工作替代场景中有一个问题在当前逻辑下并不成立,我们把AI当作初级员工去让它做很多事情,人类员工不需要做这些事,但如果不经历这些初级岗位,怎么去培养有经验的资深人类员工呢?就像公司希望招聘到有经验的员工可以立马上手,但员工的经验也需要经历从无到有的过程,这好像变成了一个先有鸡还是先有蛋的问题,暂时还无法回答。

我们今天所处的时代是一个充满变革的时代,一个人借助AI的能力可以做10个人甚至100个人过去能做的事情,这也就意味着一定会有部分人被淘汰掉。栾小凡认为作为普通人来说,一定要积极地拥抱AI,学会运用AI提升工作效率,朝着时代发展的方向迈步。

数据是现代科技发展的基础,数据库则是穿越迭代的永恒轴心,托举着每一次的时代跃迁。栾小凡表示要与时间交朋友,最终由时间来评判对错。时间没有辜负当年的深耕与坚持,未来也会陪伴所有奋斗的人前进。

来源:数据猿一点号

相关推荐