探索无限可能:大型语言模型中基于语言模型的进化搜索策略研究

B站影视 2025-01-29 06:00 1

摘要:该篇论文介绍了一种名为“Mind Evolution”的进化搜索策略,用于在大型语言模型中提高推理时间计算效率。该方法使用语言模型生成、重组和优化候选响应,并避免了需要对潜在的推理问题进行形式化的需求。实验结果表明,在自然语言规划任务中,“Mind Evolu

该篇论文介绍了一种名为“Mind Evolution”的进化搜索策略,用于在大型语言模型中提高推理时间计算效率。该方法使用语言模型生成、重组和优化候选响应,并避免了需要对潜在的推理问题进行形式化的需求。实验结果表明,在自然语言规划任务中,“Mind Evolution”显著优于其他推理策略,如Best-of-N和Sequential Revision。在TravelPlanner和Natural Plan基准测试中,Mind Evolution使用Gemini 1.5 Pro解决了超过98%的问题实例,而无需使用正式求解器。

本文提出了一种名为Mind Evolution的语言基于遗传算法(language-based genetic algorithm)的搜索策略,结合了大型语言模型(LLM)和定制化的提示语(prompts),用于高效地搜索自然语言规划任务的解决方案。该方法的核心组成部分包括选择和迁移操作、利用LLM实现初始化、重组(交叉和变异)以及岛屿重置操作的提示语集合,以及一个针对每个问题域的适应度函数,用于评估给定方案的质量并提供反馈。

在Mind Evolution中,通过引入岛屿模型(island model)来维持多样性的进化过程。该模型将不同子种群(islands)创建出来,并独立进化,同时在指定频率下进行迁移和岛屿重置事件。此外,Mind Evolution还采用了重新组合(recombination)、变异(mutation)和岛屿重置(island reset)等操作,以实现高效的搜索过程。

Mind Evolution方法主要应用于自然语言规划任务,如会议安排、旅行计划等。该方法能够快速找到满足约束条件且质量较高的解决方案,从而提高解决问题的效率。与传统的搜索方法相比,Mind Evolution具有更高的搜索效率和更好的多样性维护能力。

本文介绍了Mind Evolution在三个自然语言规划领域的实验结果,并与三种基准搜索策略进行了比较。这些领域包括Trip Planning(旅行规划)、Meeting Planning(会议规划)和StegPoet(隐藏信息编码)。对于每个任务,本文都提供了详细的实验设置和评估指标,以及对实验结果的分析和解释。

在Trip Planning任务中,Mind Evolution相对于其他基准策略表现出显著的优势,成功率为96.2%。此外,Mind Evolution还具有较强的可扩展性,在增加迭代次数后仍能保持较高的成功率。在Meeting Planning任务中,Mind Evolution也表现出了优异的表现,成功率为85.0%。最后,在StegPoet任务中,Mind Evolution也能够有效地解决该问题,达到了87.1%的成功率。

总的来说,本文证明了Mind Evolution作为一种基于进化算法的搜索方法,在自然语言规划领域具有很高的效率和准确性。通过与其他基准策略的比较,Mind Evolution显示出了其独特的优势和潜力。

论文提出了一种基于进化搜索的方法Mind Evolution,用于解决自然语言规划问题。Mind Evolution结合了自由流动的随机探索和大规模迭代优化,能够在不依赖于形式化求解器的情况下显著提高解决问题的能力。实验结果表明,在控制推理时间计算量的前提下,Mind Evolution能够将Gemini 1.5 Flash在TravelPlanner上的成功率提高到95.6%,并在Meeting Planning上达到85.0%。此外,该方法还可以应用于新的难题StegPoet,并取得了良好的效果。Mind Evolution是一种遗传搜索策略,通过利用LLM来生成、重组和优化候选解决方案,同时结合了解决方案评估器提供的反馈信息。相比于Best-of-N等其他搜索策略,Mind Evolution不仅能够广泛地探索候选解决方案,还能够深入地细化最有可能成功的解决方案。Mind Evolution不受限于搜索正式空间,可以应用于非正式的问题领域,只需要有可编程的解决方案评估器即可。未来研究可以进一步扩展Mind Evolution的应用范围,将其应用于更广泛的自然语言任务中。可以考虑使用更加先进的深度学习模型,如GPT-3等,来替代当前使用的LLM,从而获得更好的性能表现。另外,可以尝试引入更多的搜索策略,如遗传算法中的交叉操作等,以进一步提升搜索效率和质量。

来源:宁教授网络空间元宇宙

相关推荐