【鲲鹏BoostKit技术速递】开箱即优,鲲鹏向量检索新标杆——KBest来了!

B站影视 内地电影 2025-09-25 19:45 2

摘要:无论是搜推召回、大模型增强生成(RAG)、还是视频图像检索,向量检索都是核心基础。但多数现有向量检索算法如HNSW、NSG、IVFPQ等未针对鲲鹏架构深度优化,难以充分发挥鲲鹏算力性能优势。

无论是搜推召回、大模型增强生成(RAG)、还是视频图像检索,向量检索都是核心基础。但多数现有向量检索算法如HNSW、NSG、IVFPQ等未针对鲲鹏架构深度优化,难以充分发挥鲲鹏算力性能优势。

今天重磅推出——专为鲲鹏处理器量身打造的KBest向量检索算法!

KBest,英文全称Kunpeng Blazing-fast embedding similarity search thruster,意即“鲲鹏极致快速嵌入相似度搜索引擎”。在鲲鹏920上,达到了业界主流图检索算法Faiss-HNSW在X86 CPU上的1.75倍检索吞吐量(QPS)。

当前KBest算法已集成至鲲鹏BoostKit搜推广使能套件召回算法库中,提供“开箱即优”的极致体验。无需复杂的参数调优和环境部署,就能在鲲鹏处理器上获得最优的向量检索性能。欢迎在论文KBest: Efficient Vector Search on Kunpeng CPU中了解更多信息。

KBest三大创新告别性能瓶颈

智能构图策略:化索引结构,构建精炼高效图索引

高质量的索引结构是高效检索的基石,KBest在构图阶段引入了创新的索引精炼策略,在生成初始kNN图后,会迭代式地检查节点的2跳邻居,并融合多种选边策略对图结构进行多轮优化,使图索引结构中的连接更合理,缩短了查询时的搜索路径,从源头上提升了检索效率。

优化内存布局:减少随机访存,攻克访存瓶颈

图索引每个顶点的邻居存储不连续,导致检索时产生大量随机访存,cache miss率高。为了解决这一问题,KBest采用图重排算法,将相邻的节点在内存上重新排列,使其尽可能连续存储。配合鲲鹏大页内存和缓存行对齐等内存优化技术,极大地提高了CPU缓存命中率,将碎片化的随机访存压力降至最低。

精准早停机制:剔除无效计算,加速检索收敛

在图检索的中后期,大部分高质量的近邻点已经被找到,后续的遍历往往是冗余的。KBest独创了动态早停算法,通过实时监测新候选点在结果集中的插入位置,智能判断搜索是否已进入“收益递减”阶段。一旦发现连续多次的计算都未能优化结果,便会果断终止,从而避免了大量无效计算,显著提升了检索QPS。

鲲鹏亲和优化:榨干每一滴CPU算力

KBest利用鲲鹏处理器的NEON指令集,将距离计算从传统的逐点优化为批量计算。并使用vmlaq_f32等融合乘加指令,单个周期内并行处理多个距离计算项,大幅提升了计算效率。同时,KBest在处理当前节点的同时,提前将下一批最可能被访问的邻居节点数据加载到缓存中,这种计算与访存的精妙重叠,完美隐藏了内存访问延迟,确保了计算单元始终“火力全开”。

KBest:赋能多场景,玩转AI黑科技

互联网搜索推荐——洞察用户意图,实现个性化推进

针对商品语义深入理解,实现“千人千面”的个性化推荐,让“模糊需求”精准命中。在电商平台或内容社区中,用户的搜索意图往往是模糊且多样的。例如,当用户搜索“适合春季户外活动的轻便外套”时,传统的关键词匹配可能难以准确召回优质商品。

KBest通过深度理解商品和内容背后的语义信息,能够挖掘“春季户外”与“防风”、“徒步”的关联,检索出最符合用户真实意图的结果。在推荐场景中,KBest利用向量相似性,能够发现物品之间潜在的风格、“功能”或“场景”相似性,即便是全新的商品,也能被精准推荐给潜在感兴趣的用户,实现千人千面的个性化搜索与推荐体验。

视频内容搜索——深挖语义信息,直达画面本质

您是否曾想过,仅凭一句“有直升机飞越山顶的日出延时摄影”,就能在海量视频库中瞬间定位到目标画面?传统基于标签的检索方法在面对如此复杂的语义需求时常常束手无策。

KBest算法通过其创新的智能构图策略,将向量化的视频帧构建成一张高效连通的“语义地图”。这张图不仅精准捕捉了视觉内容间的深层逻辑关联,更借助优化的近邻搜索机制,实现了在亿级规模数据中的毫秒级检索响应。无论是在流媒体平台还是短视频应用,都能为用户提供实时、精准的视频片段查找功能,显著提升内容发现效率与用户粘性。

检索增强生成(RAG)——减少大模型幻觉,赋能核心业务

大模型的幻觉导致生成内容的不可靠,检索增强生成(RAG)技术通过引入外部知识库,为大模型提供决策依据,从而提升回答的准确性与可解释性。

KBest算法可无缝集成于RAG流程,凭借其在亿级向量规模下的毫秒级响应和卓越的召回精度,KBest能确保在推理前,为大模型精准匹配与查询最相关的知识片段。这不仅有效抑制了模型幻觉,更为金融、法律、医疗等领域的专业问答系统提供了坚实、可靠的技术底座,让大模型真正赋能于企业核心业务。

三步上手:在鲲鹏处理器上急速体验

KBest算法已被广泛应用于社交媒体、电商推荐、金融风控等场景,并提供了与Milvus、OpenGauss等主流向量数据库的集成插件。在鲲鹏920上体验KBest的极致检索性能,只需简单三步:

1、访问【鲲鹏社区】,下载对应的软件数字证书和鲲鹏召回算法库软件安装包,在鲲鹏920上安装KBest算法。

2、根据提供的示例代码,载入您的向量数据,调用KBest的Add接口,一键构建KBest高性能图索引。

3、调用KBest的Search接口,输入您的查询向量,即可体验KBest精准、高效向量检索能力。

import randomimport numpy as npfrom kbest import KBestif __name__ == "__main__": #准备数据,定义Kbest相关参数 #(略) # 构建KBest实例 kbest = KBest(dims, R, L, A, graph_opt_iter, metric, init_builder_type, index_type, numa_enabled, num_numa_nodes) #加入数据,构建图索引 kbest.add(nb, vectors, consecutive, reorder, level) # 构建检索器 kbest.buildSearcher #查询 kbest.setEf(ef) kbest.setEarlyStoppingParams(adding_pref, patience) kbest.search(nq, queries, topk, distances, labels, num_threads)

详细实践与指导文章见鲲鹏社区官网:

https://www.hikunpeng.com/developer/techArticles/20250612-1?envFlag=1

来源:新浪财经

相关推荐