摘要:这项由香港科技大学的刘俊腾博士、MiniMax公司的李云霁博士以及滑铁卢大学的陈文虎教授等研究团队合作完成的研究发表于2025年9月,论文详细介绍了一种名为WebExplorer的全新训练方法。有兴趣深入了解的读者可以通过GitHub项目页面(https://
这项由香港科技大学的刘俊腾博士、MiniMax公司的李云霁博士以及滑铁卢大学的陈文虎教授等研究团队合作完成的研究发表于2025年9月,论文详细介绍了一种名为WebExplorer的全新训练方法。有兴趣深入了解的读者可以通过GitHub项目页面(https://github.com/hkust-nlp/WebExplorer)访问完整代码和论文资源。
在人工智能快速发展的今天,网络助手正在成为我们获取信息的重要工具。当你需要查找复杂信息时,比如"哪位NBA球员在获得总冠军戒指后立即宣布退役,而且他的大学母校现在的主教练曾是他的队友",这类问题需要助手在多个网站之间跳转搜索,像侦探一样拼凑线索才能找到答案。然而,目前大多数开源AI助手在处理这类复杂搜索任务时都表现平平,而那些表现出色的商业模型又不愿意公开训练方法。
研究团队发现问题的核心在于缺乏足够有挑战性的训练数据。就像教一个孩子学习解决难题一样,如果只给他练习简单的加法题,他永远学不会解复杂的数学应用题。现有的训练数据要么太简单,要么数量不足,无法培养AI助手处理真正困难查询的能力。为了解决这个问题,研究团队开发了WebExplorer方法,这是一个系统性的数据生成框架,能够创造出需要多步推理和复杂网络导航的挑战性问答对。
通过这种创新方法,团队成功训练出了WebExplorer-8B模型。这个仅有80亿参数的小型模型居然能够与那些参数量高达720亿的大型模型相抗衡,甚至在某些任务上表现更佳。这就像一个轻量级拳击手击败了重量级选手一样令人惊讶。该模型支持128K上下文长度和多达100轮的工具调用,能够进行真正的长期推理和问题解决。
更令人振奋的是,WebExplorer-8B不仅在信息搜索任务上表现卓越,还在学术基准测试中展现出强大的泛化能力,尽管它只是在知识密集型问答数据上训练的。这表明研究团队找到了一条通向长期推理网络助手的实用路径。
**一、问题的发现:为什么现有的AI助手不够聪明**
当我们打开搜索引擎寻找信息时,通常都是输入几个关键词就能找到答案。但有些问题却像解谜游戏一样复杂。比如你想知道某个历史事件中一个关键人物的背景信息,但这个人物的名字在问题中并没有直接提及,而是通过他的职位、年代和其他人物关系来描述的。这时候就需要AI助手像侦探一样,先从一个线索开始,逐步挖掘更多信息,最终拼凑出完整答案。
研究团队发现,目前最具挑战性的信息搜索基准测试BrowseComp-en中,超过一半的问题连人类专家花费两小时都无法解决。这些问题的特点是刻意避免提供明确的搜索入口点,而是使用模糊的描述和间接的线索。举个例子,问题可能会问"那个在1960到1980年代播出不到50集的电视剧中,经常打破第四面墙与观众互动的幽默角色是谁?"这种问题没有直接给出节目名称或角色名称,需要通过多个特征逐步缩小范围。
然而,现有的开源网络助手在面对这类问题时往往力不从心。它们要么缺乏处理复杂多步推理的能力,要么在信息整合和跨网站搜索方面表现不佳。更关键的是,那些表现优异的商业模型都对训练方法严格保密,让研究人员难以学习和改进。
问题的根源在于训练数据的质量和难度不足。就像体育训练一样,如果平时只练习基础动作,比赛时就无法应对复杂局面。现有的训练数据集要么是通过规则自动生成的简单问题,要么是从现实应用中收集的常见查询,这些数据缺乏足够的挑战性。当AI助手遇到真正复杂的问题时,就像一个只练过教科书例题的学生突然面对高考压轴题一样无所适从。
传统的数据构建方法主要分为两类。第一类是基于图结构的方法,研究人员先手工构建一个包含实体和关系的知识图谱,然后从中选择子图来生成问答对。这种方法就像搭积木一样,需要事先设计好每一块积木的形状和连接方式,过程复杂且灵活性有限。第二类是基于演化的方法,从简单问题开始,通过不断添加新信息来增加复杂度。但这种方法往往导致问题变得不自然,就像把一个简单句子硬塞进各种修饰词,最终变成冗长难懂的表述。
研究团队意识到,要训练出真正强大的网络助手,必须找到一种既能生成足够复杂问题,又能保持问题自然性的新方法。
**二、创新方案:像探索者一样学习搜索**
面对现有方法的局限性,研究团队提出了WebExplorer框架,这是一个包含两个阶段的创新方案:模型驱动的探索和迭代查询演化。整个过程就像培养一个经验丰富的研究员,先让他深入探索某个主题的各个角落,然后学会如何提出既有挑战性又切合实际的研究问题。
在第一阶段,模型驱动的探索阶段,研究团队摒弃了传统的手工构建知识图谱的复杂方法,而是让强大的语言模型自己来探索信息空间。这个过程类似于让一个好奇的学者从一个种子话题开始,通过搜索和浏览来发现相关信息。比如从"巴西国家足球队"这个种子开始,模型可能会搜索到1950年世界杯决赛,然后了解到裁判乔治·里德的信息,接着发现他后来成为了南安普顿足球俱乐部的主席,而南安普顿又在1976年足总杯决赛中击败了曼联。
这种探索方式的优势在于灵活性和动态性。模型不需要遵循预设的规则或路径,而是根据实际发现的信息来决定下一步的探索方向。这就像一个记者在采访时,会根据被访者的回答来调整后续问题,而不是机械地按照预先准备的问题清单进行。通过这种方式,模型能够发现各种有趣的信息连接,构建出丰富的知识网络。
在完成探索后,模型会基于发现的信息网络生成初始的问答对。这些问答对通常需要跨越多个网站和信息源才能解答,具备了一定的复杂性。但是研究团队发现,即使是这些初始问答对,对于强大的商业模型来说仍然相对容易解决。就像给优秀学生出的题目如果太简单,就无法真正检验他们的能力一样。
因此,研究团队引入了第二阶段:迭代查询演化。这个阶段的目标不是像传统方法那样添加更多信息来增加复杂度,而是通过巧妙地移除明显线索和引入策略性的模糊化来增加难度。这就像把一道数学应用题中的关键数字用文字描述替换,或者把直接的条件改成需要推理的间接条件。
以前面提到的足球相关问题为例,初始问题可能直接提到"1950年世界杯决赛的官方上座人数创下了FIFA世界杯比赛的纪录,至今仍然保持。这场比赛的裁判是史上最年长的世界杯决赛执法者"。经过演化后,问题变成了"在那届独特的FIFA世界杯赛制中,没有淘汰赛决赛的赛事里,一位比赛官员后来指导一支乙级联赛球队击败了甲级联赛豪门"。这种表述方式虽然描述的是同一件事,但需要读者具备更多背景知识和推理能力才能理解。
演化过程通过三个主要策略来增加难度。第一是移除显著信息,把原本明确的时间、地点、人名等关键信息隐藏起来。第二是引入策略性模糊化,用间接描述替换直接表述。第三是寻找替代性描述方式,用更复杂的表达来传达相同信息。通过多轮迭代演化,最终生成的问题需要大量的探索性搜索和多步推理才能解决。
这个过程类似于优秀教师出题的思路。一个好的数学老师不会简单地把数字改大来增加难度,而是会设计需要多种解题技巧综合运用的问题。WebExplorer的演化过程也遵循类似原理,通过精心设计的模糊化和间接化来创造真正的智力挑战。
**三、训练策略:从冷启动到强化学习的完整方案**
有了高质量的训练数据,接下来就是如何有效训练模型的问题。研究团队采用了业界成熟的两阶段训练范式:先进行监督微调实现冷启动,然后通过强化学习进一步提升能力。这个过程就像培养一个专业咨询师,先让他学习标准操作流程,然后在实践中不断改进和优化。
在监督微调阶段,研究团队首先需要收集高质量的示范轨迹。他们使用商业模型来解决合成的问答对,并采用拒绝采样策略,只保留那些正确解决问题的轨迹用于训练。这就像让学生观摩优秀老师的解题过程,学习正确的思维方式和操作步骤。
模型的工作方式基于ReAct框架,这是一个结合推理和行动的范式。在处理查询时,模型会进行多轮的"思考-行动-观察"循环。在每一轮中,模型首先在思考标签内进行推理,分析当前情况和下一步应该采取的行动。然后执行具体的工具调用,比如搜索相关信息或浏览特定网页。最后接收工具返回的观察结果,为下一轮循环提供信息基础。
模型可以使用两种主要工具。搜索工具能够查询搜索引擎,获取相关网页的标题、链接和摘要信息。浏览工具则能够深入特定网页,提取详细内容并回答特定问题。这两个工具的配合使用就像一个研究员既能快速筛选相关资料,又能深入研读重要文献。
在监督微调完成后,模型已经具备了基本的搜索和浏览能力,但还需要通过强化学习来进一步优化决策策略。强化学习阶段的关键在于设计合适的奖励函数。研究团队采用了复合奖励机制,既考虑格式正确性,也关注答案准确性。格式奖励确保模型能够正确调用工具和维持推理结构,准确性奖励则通过自动化评判器评估最终答案的正确性。
强化学习的训练过程特别有趣。研究团队发现,随着训练的进行,模型使用的工具调用次数不断增加,从平均11次逐步提升到16次以上。同时,生成轨迹的平均长度也在不断增长,最终达到4万多个tokens。这种现象类似于数学推理中的长链思考,表明模型正在学会进行更深入、更全面的推理过程。
为了支持这种长链推理,研究团队采用了渐进式上下文长度扩展策略。训练初期使用64K tokens的上下文长度和50轮的工具调用限制,随着模型能力增强,逐步扩展到96K tokens和75轮限制,最终达到128K tokens和100轮的配置。这种渐进式扩展就像体能训练一样,让模型逐步适应更长时间的推理过程。
整个训练过程的监控数据显示,模型在BrowseComp基准上的表现与工具使用复杂度呈现出强烈的正相关关系。随着平均工具调用次数从11次增长到16次,模型在BrowseComp-en上的准确率从7.9%提升到15.7%,在BrowseComp-zh上从21.3%提升到32.0%。这种改进验证了长链推理对于复杂信息搜索任务的重要性。
**四、实验验证:小模型的大突破**
经过完整训练的WebExplorer-8B模型在各种基准测试中展现出了令人惊讶的性能表现。这个仅有80亿参数的模型不仅在同等规模模型中表现最佳,甚至在多个任务上超越了参数量多出数倍的大型模型。
在最具挑战性的BrowseComp-en基准测试中,WebExplorer-8B达到了15.7%的准确率,超越了之前表现最好的开源模型WebSailor-72B的12.0%。要知道,WebSailor-72B的参数量是WebExplorer-8B的9倍之多,这种跨越式的性能提升充分证明了训练方法的有效性。在中文版本BrowseComp-zh上,这种优势更加明显,WebExplorer-8B达到32.0%的准确率,而WebSailor-72B只有30.1%。
这种性能差异的背后反映了训练数据质量的重要性。就像两个学生准备同样的考试,一个使用了精心设计的练习题,另一个只是机械重复简单习题,最终的考试成绩自然会有显著差异。WebExplorer的成功证明了有针对性的高质量训练数据能够让较小的模型获得超越大型模型的能力。
在其他信息搜索基准测试中,WebExplorer-8B同样表现出色。在WebWalkerQA任务中达到62.7%的准确率,在FRAMES任务中达到75.7%的准确率,这些成绩都在同等规模模型中名列前茅。更值得一提的是,在需要系统化数据提取的WebWalkerQA任务中,WebExplorer-8B比参数量达到720亿的WebShaper-72B高出整整10个百分点。
特别令人印象深刻的是模型在HLE学术基准测试中的表现。HLE包含来自各个学术领域的极具挑战性的STEM问题,而WebExplorer的训练数据主要来源于维基百科类似的知识内容。尽管如此,WebExplorer-8B在HLE上达到了17.3%的准确率,超越了多个参数量更大的32B模型,包括ASearcher-Web-QwQ和WebThinker-32B。这种跨领域泛化能力表明,通过挑战性信息搜索任务的训练,模型获得了更强的通用推理能力。
训练过程的动态分析提供了更深入的洞察。研究团队记录了强化学习过程中模型行为的变化,发现了类似于数学推理长链现象的有趣规律。随着训练进行,模型的平均工具调用次数稳步增长,从初期的11次左右增加到最终的16次以上。同时,生成轨迹的平均长度也从初期的25K tokens增长到超过40K tokens。
这种变化趋势与模型性能改进高度相关。在训练的380个步骤中,BrowseComp-en和BrowseComp-zh的准确率都呈现出持续上升的趋势,与工具使用复杂度的增长曲线几乎完全一致。这种现象类似于人类专家在处理复杂问题时会进行更深入思考的特点,表明模型正在学会通过更全面的信息搜索和更细致的推理来解决困难问题。
与强大的商业模型相比,WebExplorer-8B的表现也相当有竞争力。虽然在绝对性能上仍有差距,但考虑到参数规模和计算资源的巨大差异,这种表现已经非常出色。更重要的是,WebExplorer作为开源模型,为研究社区提供了可复现和可改进的基础,这对于推动整个领域的发展具有重要意义。
**五、技术细节:构建真正有用的AI助手**
WebExplorer系统的成功不仅体现在性能数字上,更在于其技术架构的精心设计。研究团队在工具设计、数据处理和训练优化等各个环节都进行了深入思考和创新。
在工具设计方面,研究团队选择了两个核心工具:搜索和浏览。搜索工具连接到Google搜索API,能够接受多个查询词并返回每个查询的前10个结果,包括标题、URL和内容摘要。这种设计让模型能够快速获得某个主题的概况信息,就像研究人员首先浏览相关文献的标题和摘要一样。
浏览工具则更加精细化,它使用Jina内容提取服务获取网页的完整内容,然后通过Gemini Flash模型根据特定查询对内容进行分析和总结。这种两阶段处理方式既保证了内容获取的准确性,又提供了针对性的信息提取能力。整个过程就像一个研究助手先打开一篇论文,然后根据你的具体问题在论文中寻找相关段落并进行总结。
在数据质量控制方面,研究团队采用了严格的筛选标准。他们使用Claude-4-Sonnet模型测试初始生成的问答对,发现准确率达到86.6%,这表明问题相对简单。经过迭代演化后,准确率下降到67.1%,同时平均解题步数从7.9步增加到9.9步。这种变化正好说明演化过程成功地增加了问题的复杂度。
为了确保数据的多样性,研究团队从维基百科收集种子实体,涵盖了历史、科学、文化、体育等各个领域。在生成过程中,他们还在提示词中包含了三个来自BrowseComp-en的示例问答对作为风格参考,确保生成的问题具有适当的复杂度和自然度。最终构建的WebExplorer-QA数据集包含约4万个高质量问答对,为模型训练提供了充足的学习材料。
训练配置的优化也体现了研究团队的专业水平。在监督微调阶段,他们使用约1.3万个训练样本,批次大小设为32,学习率为1e-5,训练4个epochs。这种相对保守的配置确保了模型能够稳定学习而不会过拟合。在强化学习阶段,每个批次包含8个轨迹生成,批次大小为64,学习率调整为1e-6,整体训练在约1.2万个样本上进行。
特别值得一提的是上下文长度的渐进式扩展策略。现代语言模型支持长上下文处理,但直接使用最大长度训练会导致内存和计算资源的巨大消耗。研究团队采用了从64K到96K再到128K的渐进式扩展,让模型逐步适应更长的推理链。这种方法不仅提高了训练效率,还让模型更好地掌握了长序列处理能力。
评估方法的设计也反映了实际应用的需求。研究团队采用了Avg@4的评估指标,即对每个问题运行4次并取平均结果,这样可以更好地反映模型的稳定性。同时,他们使用DeepSeek-V3作为自动评判器来评估答案的正确性,避免了人工评估的主观性和效率问题。
在基准测试的选择上,研究团队涵盖了从信息搜索到学术推理的各个方面。BrowseComp系列测试复杂信息检索能力,GAIA测试通用AI助手能力,WebWalkerQA测试系统化网页遍历能力,FRAMES测试事实性推理能力,XBench-DeepSearch测试深度信息检索能力,HLE测试学术级别的推理能力。这种全方位的评估确保了模型性能的可靠性和全面性。
**六、深远影响:开源AI的新里程碑**
WebExplorer的成功不仅仅是一个技术突破,更代表了开源AI发展的一个重要里程碑。这项研究证明了通过精心设计的方法论,相对较小的团队也能够创造出与大型科技公司竞争的AI系统。
从技术发展的角度来看,WebExplorer展示了数据质量相对于模型规模的重要性。在当前大模型竞赛愈演愈烈的背景下,这项研究提醒我们,简单地增加参数量并不是提升AI能力的唯一路径。通过深入理解任务本质,设计针对性的训练方法,即使是资源有限的研究团队也能够取得突破性进展。
模型驱动的探索方法为未来的数据合成提供了新的思路。传统的数据构建方法往往依赖于大量的人工设计和规则制定,不仅成本高昂,还难以保证质量的一致性。WebExplorer证明了强大的语言模型可以成为数据合成的有力工具,通过模拟人类研究者的探索过程来发现有价值的信息连接。这种方法具有良好的可扩展性,可以轻易地扩展到其他领域和任务。
迭代查询演化的策略也为问题设计提供了新的范式。与传统的通过添加信息来增加复杂度不同,这种通过移除显著线索和引入模糊化的方法更接近真实世界中的挑战。现实中的问题往往不会直接告诉我们所有需要的信息,而需要通过推理和搜索来获得。WebExplorer的演化策略正是模拟了这种真实的问题解决过程。
从应用前景来看,WebExplorer开启了开源高质量AI助手的可能性。目前,最先进的AI助手服务主要由少数大型科技公司提供,这不仅限制了创新的多样性,也给用户带来了依赖性风险。WebExplorer的开源特性让更多的开发者和组织能够构建自己的专业AI助手,这对于推动AI技术的民主化具有重要意义。
在教育和研究领域,WebExplorer的训练方法论也具有重要的启示价值。它展示了如何通过系统性的方法设计来解决复杂问题,这种思维方式不仅适用于AI研究,也可以应用到其他需要创新方法论的领域。研究团队公开的完整代码和数据为其他研究者提供了宝贵的学习资源,有助于推动整个研究社区的发展。
强化学习中观察到的长链推理现象也为我们理解AI系统的学习过程提供了新的视角。类似于人类专家在处理复杂问题时会进行更深入思考,AI系统也能够通过适当的训练学会进行更全面的推理。这种发现对于未来设计更智能的AI系统具有重要的指导意义。
当然,WebExplorer也面临一些挑战和限制。首先是计算资源的需求,虽然相对于训练更大规模的模型来说已经相当高效,但对于个人研究者来说仍然是一个门槛。其次是训练数据的领域限制,当前的方法主要针对基于维基百科的知识型问答,在其他专业领域的适应性还需要进一步验证。
不过,这些限制并不影响WebExplorer作为方法论突破的价值。随着计算资源成本的不断下降和训练方法的进一步优化,这些技术门槛将逐步降低。更重要的是,WebExplorer提供的思路和框架具有很强的可扩展性,研究者可以根据自己的需求进行调整和改进。
说到底,WebExplorer的意义不仅在于创造了一个性能优异的AI助手,更在于证明了开源研究的巨大潜力。在AI技术快速发展的今天,这种开放、协作的研究方式将成为推动整个领域进步的重要动力。通过公开方法、分享经验,研究社区能够更快地解决共同面临的挑战,最终让AI技术更好地服务于全人类的福祉。
Q&A
Q1:WebExplorer是什么?它与其他AI助手有什么不同?
A:WebExplorer是香港科技大学团队开发的AI网络助手训练方法,通过"探索进化"的两阶段方案生成高质量训练数据。与其他方法不同,它让AI模型像侦探一样自主探索信息,然后通过巧妙地隐藏线索而不是添加信息来增加问题难度,最终训练出的80亿参数模型能够超越720亿参数的大型模型。
Q2:WebExplorer的训练数据是如何生成的?
A:训练数据通过两个阶段生成。第一阶段是模型驱动探索,从种子实体开始让AI模型通过搜索和浏览自主发现相关信息,构建复杂的知识网络。第二阶段是迭代查询演化,通过移除明显线索、引入模糊化描述等方式,将简单问题转化为需要多步推理的复杂查询,最终生成约4万个高质量问答对。
Q3:普通用户能使用WebExplorer吗?它的应用前景如何?
A:目前WebExplorer主要以开源研究项目形式存在,代码已在GitHub公开。虽然普通用户暂时无法直接使用,但它的开源特性让更多开发者能构建专业AI助手,有助于打破大公司垄断,推动AI技术民主化。未来可能会有基于WebExplorer技术的应用产品面向普通用户。
来源:科技行者一点号1