自媒体人的“魔法棒”:TeleAI 多智能体视觉创作与编辑框架 MAGiC

B站影视 电影资讯 2025-09-25 16:48 1

摘要:随着自媒体平台井喷式发展,个人创作者早已不满足于简单的图文排版,而是追求“图像生成+视频编辑+多素材整合”的复杂视觉内容。然而,即便当前一些 AIGC 工具已接近商用水平,但仍需人工手动调用多个模型、处理任务间的衔接,耗时又费力。

随着自媒体平台井喷式发展,个人创作者早已不满足于简单的图文排版,而是追求“图像生成+视频编辑+多素材整合”的复杂视觉内容。然而,即便当前一些 AIGC 工具已接近商用水平,但仍需人工手动调用多个模型、处理任务间的衔接,耗时又费力。

现有的基于大语言模型(LLMs)的智能体系统,要么在复杂任务前卡壳(例如分不清“先加人物再调背景”的先后顺序),要么因工具单一导致结果不稳定,最后产出的内容往往差强人意。

为了解决这些实际应用中的现实问题,中国电信人工智能研究院(TeleAI)以“智传网(AI Flow)”的集成律为理论指导,提出了一项由 LLMs 驱动的多智能体视觉创作与编辑框架——MAGiC,专为解决自媒体等场景的复杂视觉创作痛点,让从文本输入到高质量视觉输出的全流程更智能、更高效。

智传网(AI Flow)是 TeleAI 重点推进研发的技术方向之一,与 AI 治理、智能光电(包括具身智能)、智能体形成“一治+三智”战略科研布局。集成律是智传网(AI Flow)的三定律之一,指出真正的智能涌现,并非来自单一模型的无限强大,也不是来自同质化智能体的简单堆砌,而是源于能力各异的多个智能体高效协同。

MAGiC 的核心正是如此,通过组织和调度多个各有所长的视觉智能体协同工作,从而解决单个模型无法胜任的复杂创作任务。同时,它还可通过智传网(AI Flow)将计算任务合理划分到不同节点,利用大小模型并行采样等技术,优化模型推理过程,减少系统推理延迟,大幅提升视频生成的效率。

多步骤图片编辑任务效果多步骤视频生成任务效果

四大模块保障高质量生成

已有研究探索将视觉工具或模型整合进 LLMs 中以构建智能体系统,通过自动化任务分解和工具调用来简化创作流程,但仍面临三大核心挑战。

第一,复杂任务分解能力不足,难以准确建立子任务间的依赖关系。

第二,特定任务依赖单一工具,工具效果不稳定将严重影响整体任务结果。

第三,工具集成效率低下,工具描述占用大量上下文 token,削弱了 LLM 在任务理解与计划方面的性能。

与传统单 LLMs 系统不同,MAGiC 通过多智能体间的协作通信实现更精准的任务分解、更灵活的工具调度,以及更稳健的结果评估与反馈机制,显著提升了系统在处理复杂、多步骤视觉生成任务中的表现。

TeleAI 科研团队设计了一种面向视觉创作任务的多智能体系统,将复杂任务处理流程划分为四大模块,即任务分配、任务规划、任务执行、结果评估,并在每个阶段引入具备不同职责的智能体以协同完成复杂创作流程。

MAGiC 框架图

模块1:任务分配(Task Assignment)

此模块如同“项目经理”,对复杂任务进行拆解和分配。

例如,面对“先生成‘宇航员登月’图像,转成视频后再和‘火箭发射’视频拼接”这类多步骤需求,传统系统常因“一次性拆解所有任务”而出错。

而 MAGiC 的任务分配模块则创新采用 ReAct 分布分解策略,先由任务指派器(Task Designator)根据当前创作进度,逐步生成下一个任务;再由任务检查器(Task Inspector)校验任务格式是否合规,避免“无效任务”进入后续流程。

回到前面的例子,会先进行“宇航员登月”的图像生成,再推进视频转换,而非“一口吃个胖子”。这种设计将大幅降低 LLMs 处理复杂任务的负担,让任务拆解更精准。

模块2:任务规划(Planning)

此模块如同“专属规划师”,根据不同类别的视觉任务需求,适配不同的工具。

由于图像生成与视频生成的逻辑截然不同,因此需要调用不同的工具组合进行任务处理。MAGiC 为 5 类核心视觉任务配置了专属规划器,每个规划器仅加载对应任务的工具描述,从而避免因工具太多导致“LLMs 分心”的问题,让规划更聚焦、更高效。

图像生成规划器(Image Generation Planner):针对“文本生成图像”需求,调用 Stable Diffusion 3、Flux 等工具。图像编辑规划器(Image Editing Planner):针对“修图”需求,调用 InstructPix2Pix、GroundingDino、SegmentAnything 等工具。视频生成规划器(Video Generation Planner):针对“视频生成”需求,调用 Zeroscope-XL、AnimateDiffT2V 等工具。视频编辑规划器(Video Editing Planner):针对“视频编辑”需求,调用 InstructPix2Pix+CrossAttentionProcess、AnimateDiff 等工具。视频剪辑规划器(Video Clip Planner):针对“视频剪辑”需求,调用 Insert Video、Sort Video 等工具。每种任务类型下使用的视觉工具

模块3:任务执行(Execution)

此模块如同“开发工程师”,精准推动计划落地。

由于计划可能涉及多个工具调用,因此执行器(Executor)采用迭代式智能体,解析计划并逐步调用视觉工具完成相应任务,生成可视化结果。例如,先用 Stable Diffusion 3 生成“宇航员登月” 背景,再用 Inpainting 添加宇航员细节。

为了管理连续工具调用之间的依赖关系,通过维护智能体的短期记忆,用于存储历史工具执行生成的资源信息,避免跳过关键步骤。

这种方式无需人工干预,就能让复杂计划一步步落地。

模块4:结果评估(Evaluation)

此模块如同“产品质检员”,实时纠错,避免错误累积。

评估器(Evaluator)通过调用如 GPT-4o 等多模态大模型构建任务相关评估工具,实时检查执行结果是否符合需求。比如发现“生成的宇航员没有头盔”,则会立即生成负反馈,让规划器调整工具或参数。若结果合格,则触发下一任务。

这一设计从根源上避免了中间错误的累积,让最终产出的内容质量更有保障。

应用效果评估

科研团队在公开数据集 T2ICompBench 和自建可视化需求数据集上进行应用实验,分别验证 MAGiC 与传统 LLMs 智能体系统相比在图像生成任务上的显著优势,以及基于 ReAct 的任务分解框架与传统的一次性分解框架对复杂任务分解能力的差异。

图像生成任务评估

在属性绑定(Attribution Binding)任务中,系统的平均性能较次优模型提升了 17.6%。值得注意的是,尽管集成了 Stable Diffusion 3 和 Flux 模型,MAGiC 框架下的协同执行效果显著优于各模型单独使用,说明评估器的实时反馈机制可以实现更有效的规划。

在更具挑战性的物体关系(Objection Relationship)任务中,MAGiC 以 4.2 的平均分领先基线模型 12%,这归功于图像生成规划器的两阶段处理策略先由 GPT-4o 解析空间关系,再通过修复模型精准添加物体。

图像生成任务实验结果图像生成任务实验结果

这些数据充分验证了 MAGiC 在多模态任务理解和执行方面的显著优势。

任务分解能力评估

在任务识别方面,ReAct 方法在 16 种“模型-任务”组合中的 12 种情况下取得了更好性能,且随着任务复杂度提升,两种方法的性能差距显著扩大。这说明基于 ReAct 的任务分解方法可以有效处理更加复杂的用户需求。

任务识别准确率

在依赖关系判断方面,ReAct 方法优势更加明显,其准确率几乎全面领先传统方法,尤其是对于推理能力较弱的模型。实验结果表明,基于 ReAct 的任务分解方法,通过一次生成一个任务并判断其依赖关系,显著降低了任务分解的难度,取得了更好的性能表现,更适合处理复杂的用户需求。

依赖关系判断准确率

定性分析

团队以实际用户需求为例,展示了 MAGiC 在处理过程中各智能体之间的交互信息,详细说明了视觉任务的执行流程。

MAGiC 执行视觉任务的具体流程

MAGiC 的核心是构建一个强大的智能视频剪辑助手,旨在彻底革新自媒体人的工作流。通过与 Insta360、DJI Pocket3 等流行拍摄设备无缝衔接,创作者仅需提供原始素材和创意需求,便能自动化地输出剪辑完成的专业级成片,形成一条完整、自动化、智能化的视频创作链条。

通过任务分配、规划、执行和评估四个模块的协同工作,并采用基于 ReAct 的动态任务分解机制,MAGiC 在处理复杂、多步骤的创意视觉内容生成,特别是自动化视频剪辑任务上,展现出了卓越的能力和潜力,为赋能个人创作者、降低高质量视频制作门槛提供了切实可行的创新方案。

MAGiC 不仅是一个强大的智能剪辑助手,更是“智传网(AI Flow)”在复杂视觉创作领域的一次成功实践与完美展示。它不仅展示了多智能体协同在解决复杂现实问题上的巨大潜力,也预示着真正智能涌现的 AI 新时代的到来。此项成果已被欧洲规模最大的人工智能学术会议 ECAI 2025(第 28 届欧洲人工智能会议)收录。

相关论文:

S.Wang et al., "MAGiC: An LLM-Powered Multi-Agent Framework for Unleashing Visual Creativity", ECAI 2025.

来源:TeleAI

相关推荐