摘要:首先,我们先分享一个例子。这张图是我用一个我们基于内部孵化 Agentic Search(智能体搜索)的产品,把这两天 DACon 活动的信息做了一个自动的信息摘要(Summary)。 大概只花了 5 到 10 分钟,就获得了一个完整的分析摘要,包括相关的议题
导读 大家好,今天很高兴与大家分享阿里云 AI 搜索团队在 AI 时代新一代企业搜索方面的一些思考,主题是 AI 搜索技术效能:“从‘检索’到‘洞察’”。
今天的分享大概包含四个部分:
1. 趋势:看看在 Agent 时代,信息检索会有哪些变化?
2. 挑战:回到企业服务领域,分享在企业搜索有哪些搜索新观察。
3. 实践:介绍我们在 AI 搜索领域,"从检索到洞察"的产品技术实践。
4. 目标:分享阿里云正在持续构建的 AI 搜索基础设施进展。
分享嘉宾|汤祯捷 阿里云 AI搜索产品负责人
内容校对|郭慧敏
出品社区|DataFun
01
首先,我们先分享一个例子。这张图是我用一个我们基于内部孵化 Agentic Search(智能体搜索)的产品,把这两天 DACon 活动的信息做了一个自动的信息摘要(Summary)。 大概只花了 5 到 10 分钟,就获得了一个完整的分析摘要,包括相关的议题、技术专题,甚至能生成 Markdown 和 HTML 报告。这对于用户高效收集信息来说,是一种完全颠覆性的AI搜索方式。区别于之前只是使用工具或搜索网页倒排索引的搜索方式。
回顾搜索技术的发展,可以分为几个阶段:
智能搜索: 这是最早的形态,包括全网搜索(如 Google、百度)、垂类搜索(如淘宝、京东),以及云端搜索服务(如 ElasticSearch、OpenSearch)。RAG(检索增强生成): 这是现在大家非常了解的模式,即“从检索到生成”。RAG 的需求越来越多,但最大的挑战在于效果不稳定。无论你用什么模型,联网搜索还是大文件生成,都存在需要校准的问题。Agentic Search(智能体搜索): 这可能是未来趋势,这种方式可以被理解为从被动搜索走向了主动搜索。以前的信息流是静态生成的(Static Workflow),现在则变成了动态生成的(Dynamic Workflow)。整个信息流的编排和结果都是 AI 自动生成的。然而,这些先进的 AI 搜索趋势与我们当前服务企业用户的真实场景之间,却存在着巨大的鸿沟(Gap)。
因此,我们不经要问,在 AI 搜索时代,传统企业搜索的困境到底在哪里?通过大量企业搜索客户的各行业专业服务,我们发现他们的内部搜索大多仍还停留在关键字搜索层面。
传统企业搜索有三大痛点:
基于这些企业搜索的典型困境,AI 搜索和背后的 LLM AI 技术将全面改变企业搜索的困境。我们认为其进化主要有三个方向:
进化一:意图理解传统方式:“你搜什么,我给你什么”。基于词频和索引,无法处理同义词或复杂问句。进化方向:“我猜你真正想要什么”。通过 NLP、语义搜索和用户画像,去理解上下文和角色。AI 搜索需要真正听懂用户的“心里话”,这甚至包括了多轮对话中上下文的保存。进化二:知识提炼
传统方式:信息孤岛。搜索单一数据源,结果是割裂的。用户需要手动拼凑信息。进化方向:统一知识引擎。通过统一连接器 + 知识图谱 + RAG 技术,生成综合、结构化的完整答案。目前的趋势,是把知识图谱技术和 RAG 技术整合在一起。进化三:动态交互
传统方式:静态搜索。返回“10 条蓝色链接”,查询一次就返回一次。搜索即结束。进化方向:对话式 LLM 智能问答。支持多轮对话、Human in the Loop、持续追问、实时生成内容。搜索即开始,你可以在交互中完成后续工作。
基于这些挑战和进化,我们总结出 AI 智能时代的三个新观察:
检索平权: 从搜索用户视角看,信息检索的方式的变化会让用户的搜索平权。主动洞察: LLM(大语言模型)正在重构搜索信息的组织方式。为用户主动洞察信息检索的内容。全模态混合: 搜索正从单一的文本检索方式,走向文本、图片、视频等全模态的 AI 混合检索方式。围绕以上的三个搜索新观察(检索平权/主动洞察/全模态混合检索),阿里云 AI 搜索团队进行深入的技术与产品实践。在此与大家做简略分享。
实践一:检索平权
“检索平权”的核心是 “让‘人人都是检索专家’成为现实” 。
初级阶段- 传统的壁垒: 用户需要依赖复杂的检索技巧,比如布尔运算符。普通用户很难完成深度信息挖掘。变革阶段- 变革的动力: 随着 LLM 智能体(Agent)的崛起。用户不再需要复杂的技巧,仅通过自然语言交互即可实现使用自然语言 NLP 的智能检索。Agent 的角色: 自动理解用户意图,拆解复杂任务,并执行深度检索。进化阶段- 平权的结果: 以基于 LLM 构建的 Agent 产品不断迭代与演进,最终实现将 Agent 实现 DeepSearch 深度检索和 DeepResearch 深度研究能力的全面智能 Agent,以推理 Thinking 方式,深度挖掘复杂网状信息,全面打破信息鸿沟。在这里,我们分享一下阿里云 AI 搜索产品 OpenSearch 背后的 Deep Search/Research 技术架构。对比分享此创新架构与单步 RAG 架构有本质区别。
单步 RAG:是被动响应方式,使用单一的搜索工具,并且无法自我修正。在实践中,我们发现 RAG 的结果不可控,无论是检索结果还是大模型生成的结果都难以保证准确,在生产环境用好的不多。Deep Research:是主动代理方式,会进行动态的多工具联合使用。能做任务分解、分步检索、答案整合,更关键的是有 “循环验证/反思” 机制来修正检索方向。在具体技术实践中,我们发现多工具 Tools 的之间联通是非常重要的一环。而 Deep Researc 架构 包括:
沙箱(Sandbox):用于安全运行浏览器、Code Agent、文件系统、命令行、多模态解析、网络爬虫等一系列工具的 Agent 环境。规划执行 (MCP):负责调用通用搜索、OS/ES 知识库、异构数据源等 MCP Server。有效构建上下文 Context。记忆 (Memory):包括长短期记忆。整个流程是:用户提问后,首先做“背景调查”,如果问题不清晰会“澄清意图”;然后进入“规划执行”,生成计划,调用 LLM 和工具集;最后“报告生成”,产出 Outline、Markdown 和网页报告。Deep Research 主要是整合了各维度的信息检索与整合分析,但还是不足的。要真正满足用户需求,需要构建更加通用的智能 Agent 产品,包括类似 ChatBI 的自动的数据分析能力,多模态检索等技术特性。
于是在更深入应用 AI 智能探索,我们构建全新的 Agentic Search 架构。这个 Multi-Agent 架构的核心是异构数据全连接(非结构化、结构化、图数据模式等),并为此配备专属的 Agent:
Search Agent:专属处理多模态 AI 混合检索,包括通用检索, 日志检索,向量检索及 AI 搜索检索。DB Agent:自主处理结构化数据分析(如 NL2SQL)。Graph Agent:自主处理图数据分析(如 NL2Gremlin,GraphRAG)。以上这些子 Agent 由一个主 Agent(包含 Planner, Executor, Report, Memory)来统一自主规划和调度,最终提供全面的主动 AI 洞察能力。
这个 Agentic Search 架构的效果如何?我们做了一些评估。
在 HotpotQA、Musique 等数据集上,Agentic Search(配合 Qwen-Plus 3.0)的搜索深度和召回率,均明显优于 RAG 和 ReAct。
这里必须深入解释一下 RAG、ReAct、Deep Search 和 Agentic Search 的区别:
RAG:如前所述,结果精度不可控。ReAct:是一种“走一步看一步”的策略。在问题不复杂时可用,一旦问题超过 5 步,就极容易跑偏。Agentic Search:摒弃了 ReAct,采用 “Planning and Execution”(规划与执行)策略。会先规划出全貌,安排主/子任务,并有反思调整机制。这保证了结果的准确性 ,但缺点是慢,一个复杂问题可能要 5 到 15 分钟,而且容易突破 Token 限制。Agentic Search:目标就是解决 Deep Search 的性能问题。核心改进有两点:任务并行:在一个 Plan 下的多个 Task 可以并行执行,成倍提升性能Context 压缩:对上下文和 Memory 做裁剪压缩,解决 Token 瓶颈。我们创建出来的 Agentic Search 产品在 BrowseComp 榜单上可以跑出与 OpenAI ChatGPT Agent 类似的效果。
以下是 Agentic Search 的示例,左边是自主推理和工具调用全过程,规划 Plan, 调用多工具等。右边是自动生成的 Markdown 报告和网页报告。
我们可以到从传统搜索到 AI 检索的演进,其中一直不变的重要环节就是数据预处理与数据工程。
我们开发并实现一套完整的 AI 搜索全模态数据治理产品方案。无论是文档、数据库还是湖仓,都能进行统一解析与预处理,包括:
非结构化数据:做文档切片服务(语义切分)和向量化服务(稠密/稀疏向量)。结构化数据:做内容提取和文本分词。图数据:做实体提取和关系提取。在多模态理解层面,搜索也经历了从单模态(文搜文)、跨模态(文搜图)到 融合模态(图+文联合查询) 的进化。
右图是团队自研的多模态模型架构。基于 Qwen-VL 和 MMEB 训练,最关键的一步是,会将任务拆解给专用的小模型(Model_B 处理文本,Model_C 处理视频/VDR),最后再将结果融合(Ops-MM)。子模型的微调和最后融合的效果是关键。
这个能力可以用在视频搜索上,实现精准时刻视频主样本定位。比如在体育视频中搜索“姆巴佩射门”或“樊振东金牌”,能精确定位到对应的视频帧。
基于此提供了多模态 Embedding 模型服务。Ops-MM-embedding 模型在 MMEB 榜单上是开源,模型 No.1,同时也提供文本向量化和向量降维的定制服务。
最后,我分享一下我们 AI 搜索团队目前持续构建的 AI 搜索基础设施。
这张图是 AI 搜索开放平台架构。
这就是已经开放给用户使用的 AI 搜索开放平台。
提供丰富的 AI 搜索服务(文本、图片、音视频的解析和向量化)。支持全链路搜索开发(模型微调、部署、灵活编排)。支持 API 按量计费,可以免费开通,无缝集成多种开发框架。这些能力还将沉淀为一系列搜索专属大模型,打包成标准服务,包括文档解析、图片理解、多款文本向量和多模态向量服务、查询分析、Reranker 重排服务以及 Qwen、DeepSeek 等大模型。
最后,我们将这些基础设施与阿里云的两大核心搜索产品进行了深度融合:
1. OpenSearch – 自研 AI Native 搜索服务
OpenSearch 是我们自研的 AI Native 搜索服务。具备三大核心能力:
面向 Agentic Search:提供 DeepSearch Agent、DeepResearch Agent 和 LLM 智能问答版。AI 增强:全面对接 AI 搜索开放平台,并融合了基于 Havenask 的自研行业算法引擎。10 倍向量检索版:为自动驾驶等多模态场景打造,包含多模态数据湖、GPU 加速的向量引擎、混合检索和视频 RAG 检索能力。2. 阿里云 Elasticsearch – 开源企业级 AI 搜索平台
Elasticsearch 是全球行业第一的开源搜索引擎,我们与 Elasticsearch 深度合作,将其全面 AI 化。
为 ES 提供了基于效果更优的 RAG 全链路模型。如上图所示,客户数据源 通过 AI 搜索开放平台 进行解析、切片、向量化,存入 Elasticsearch 构建索引。用户问题 也通过 AI 平台进行意图识别和向量化,在 ES 中进行多路召回(文本、稠密/稀疏向量),召回结果再经过重排模型、Prompt 工程和大模型处理,最终生成精准答案。
这种 “传统搜索+向量搜索”的一站式 AI 混合搜索效果非常显著。例如,当用户搜索“浙一医院”,传统文本召回会分词为“浙一”和“医院”,导致召回失败;而向量召回能理解语义,准确匹配到“浙江大学医学院附属第一医院”。通过“稠密向量+稀疏向量”的多路混合检索 ,Top10 结果的匹配效果相比单路检索提升了 20%。
总结一下,这就是阿里云 AI 搜索的产品全景图。
我们的目标是面向企业级客户和开发者,提供优质的场景化 AI 搜索产品与服务。底层是 AI 搜索开放平台,它整合了高性价比的开源企业级搜索引擎(如 Elasticsearch)和自研 AI 智能检索引擎(如 OpenSearch 和 Havenask)。之上是丰富的场景应用和 AI 能力,包括 RAG 检索增强、行业语义搜索、Deep Search/Research、多模态搜索等,并由搜索专属大模型和百炼-通义千问大模型提供动力。
希望通过以上一系列 AI 搜索基础设施产品,帮助广大企业客户在 AI 时代真正实现从“检索”到“洞察”的跨越。
以上就是本次分享的内容,谢谢大家。
来源:DataFunTalk
