让论文开口“说话”:西湖大学 AGI Lab 推出 Auto-Slides

B站影视 内地电影 2025-09-22 17:43 3

摘要:在 AI Agent 的家族里,我们已经见过“会写作的Agent”“会编程的Agent”。现在,一位新成员登场了:Auto-Slides——一个会做PPT的Agent。它可以把论文 PDF 一键转化为结构清晰、图文并茂的幻灯片,还能听懂自然语言指令,实时修改。

在 AI Agent 的家族里,我们已经见过“会写作的Agent”“会编程的Agent”。现在,一位新成员登场了:Auto-Slides ——一个会做PPT的Agent。它可以把论文 PDF 一键转化为结构清晰、图文并茂的幻灯片,还能听懂自然语言指令,实时修改。无论是学生、老师还是研究人员,都能借助它快速把复杂论文“讲清楚”。

示例生成结果:

还记得第一次做PPT的场景吗?一张空白页,光是想着“从哪开始排版”就让人头疼。尤其是面对几十页的论文,要在密密麻麻的公式和图表里筛选重点,再组织成逻辑流畅的幻灯片,这个过程常常比写论文更折磨。

如今,AI Agent 的浪潮正在改变这一切。西湖大学 AGI Lab 发布的 Auto-Slides,就是一个真正“会做PPT的Agent”。只需输入一篇论文,它就能自动生成完整的演示文稿;更重要的是,你还能随时与它对话,比如让它“多加一页解释核心方法”,或“把复杂公式换成图示”,它都能即时修改。

换句话说,Auto-Slides 不只是帮你写,还能帮你讲。它让论文第一次有机会“开口说话”,成为一份人人可理解、可演讲的故事。

论文信息

论文标题:Auto-Slides: An Interactive Multi-Agent System for Creating and Customizing Research Presentations论文链接:https://arxiv.org/abs/2509.11062项目主页:https://auto-slides.github.io/Github:https://github.com/Westlake-AGI-Lab/Auto-Slides

近年来,大模型正在重塑人们与学术内容的交互方式。但现有的 LLM 学习助手仍面临三大痛点:

输出碎片化:对话式问答缺乏全局组织,学习体验零散。模态单一:缺少图表与公式,难以支撑复杂知识的讲解。缺乏教学逻辑:论文写作面向专家,不适合作为演讲材料。

因此,“从论文到演示”的转化,需要的不只是摘要生成,而是能解析多模态内容、重组逻辑,并保持交互性的系统。

Auto-Slides 采用了多智能体协作机制,将“论文转演示”的过程拆解为四个关键环节:

解析论文:保留全部细节
论文不只是文字,还包含表格、公式和图示。Parser Agent 基于高精度 PDF 解析,能完整抽取这些多模态信息。
→ 保证公式不会乱码,表格能直接复现。逻辑重组:从 IMRaD 到 PMRC
学术论文强调研究的完整性,但演讲更需要清晰的故事节奏。Planner Agent 借鉴教育心理学,将 IMRaD(Introduction–Methods–Results–Discussion)转化为 PMRC(Problem–Motivation–Results–Conclusion)。
→ 先点出问题,再解释动机,展示结果,最后总结结论,更贴合听众的理解路径。验证与修正:避免“AI 幻觉”
Verification & Adjustment Agents 会对比论文与幻灯片,自动识别遗漏与错误,再进行修复。
→ 既能提高准确性,也避免了“编造内容”的风险。生成与交互:让PPT可修改
最终,幻灯片由 LaTeX Beamer 渲染生成,保证学术规范。
用户还能通过自然语言指令交互,进行动态修改。

这意味着,Auto-Slides 不只是“一次性生成工具”,而是一个可协作的演讲助手

研究团队通过三项用户研究和一次自动化评估,验证了 Auto-Slides 的价值:

学习者视角
跨学科本科生先体验自动生成,再通过交互修改。结果表明,他们觉得更容易抓住论文重点,学习节奏也更可控。与LLM对话式学习对比
Auto-Slides 在结构清晰度、直观性上更胜一筹;而对话方式则在个性化探索上有优势。两者结合使用,效果最佳。专家评估
专家对比了两类幻灯片:原始 IMRaD 顺序 vs Auto-Slides 的 PMRC 顺序。结果显示,经过逻辑优化的版本更易于演讲,也更利于听众理解。自动化评估
引入 LLM 作为“裁判”,检测内容保真度。结果显示 Auto-Slides 在复杂公式、表格的还原和整体完整性上表现突出。

这些结果说明,Auto-Slides 并不是单纯的“偷懒工具”,而是真正提高教学与传播质量的智能体。

Auto-Slides 不只是一个“省事的做PPT工具”。它背后的意义在于:AI Agent 正在从写作助手,走向演讲助手;从知识生产,走向知识传播。

这意味着,学术知识的门槛正在被进一步降低:

学生可以不再被晦涩难懂的论文绊住,而是用幻灯片快速抓住重点;老师可以不必花大量时间准备教学材料,而是把最新研究即时转化成课件;跨学科的研究者,可以在第一次接触陌生领域时,就拥有一个可视化的理解框架。

更长远来看,这样的Agent并不仅仅属于学术圈。任何需要“把内容讲给别人听”的人——从公司汇报到教育培训——都可能因此获益。

来源:极市平台

相关推荐