字节跳动和浙江大学团队如何让AI创作图文内容变得&

B站影视 电影资讯 2025-09-30 17:22 1

摘要:在我们的日常生活中,当需要制作一份图文并茂的报告时,我们通常不会仅仅依赖一种工具。比如撰写一篇关于巴黎旅游的文章时,我们可能会用搜索引擎找埃菲尔铁塔的照片,用Excel制作预算表格,用Photoshop编辑图片,用AI工具生成一些创意插图。这种多工具协作的方式

在我们的日常生活中,当需要制作一份图文并茂的报告时,我们通常不会仅仅依赖一种工具。比如撰写一篇关于巴黎旅游的文章时,我们可能会用搜索引擎找埃菲尔铁塔的照片,用Excel制作预算表格,用Photoshop编辑图片,用AI工具生成一些创意插图。这种多工具协作的方式既自然又高效。

这项由浙江大学和字节跳动BandAI团队共同完成的研究于2025年9月发表,研究论文题为"LLM-I: LLMs are Naturally Interleaved Multimodal Creators"。研究团队包括浙江大学的郭子润和金涛,以及字节跳动的张峰和贾凯。有兴趣深入了解的读者可以通过项目主页https://github.com/ByteDance-BandAI/LLM-I获取完整论文和相关资源。

然而,当前的AI图文创作系统却陷入了一个"万能钥匙"的误区。大多数系统试图用单一工具解决所有问题,就像强迫一把螺丝刀去完成锤子、钳子和电钻的全部工作。这种方法虽然看起来简洁,但实际效果往往差强人意。当需要真实的历史照片时,生成式AI只能创造虚假图像;当需要精确的数据图表时,它又难以保证准确性。

研究团队提出了一个全新的解决方案:LLM-Interleaved(简称LLM-I)。这个系统的核心理念是让大语言模型扮演一个"智能指挥官"的角色,根据不同任务的需求,巧妙地调用最合适的专业工具。就像一个经验丰富的项目经理,知道什么时候该找设计师,什么时候该找程序员,什么时候该找摄影师。

这种"工具大师"的设计思路带来了革命性的改变。传统方法就像一个人试图既当厨师又当服务员还当收银员,而LLM-I则是一个聪明的餐厅经理,知道如何协调专业团队为客户提供最佳服务。更重要的是,当需要新功能时,只需要加入新的专业工具即可,而不需要重新训练整个系统。

实验结果令人振奋。在四个不同的评测基准上,LLM-I都取得了显著超越现有方法的表现。特别是在他们新设计的LLMI-Bench基准测试中,LLM-I的表现比GPT-4o等顶级系统高出20多个百分点。这就像一个新手司机经过专业训练后,不仅超越了老司机,还能在各种复杂路况下都表现出色。

一、智能工具箱:四把专业"钥匙"解锁不同需求

LLM-I系统的核心是一个包含四种专业工具的"智能工具箱"。每个工具都有自己的专长,就像一个专业团队中的不同专家。

首先是在线图片搜索工具,这就像雇佣了一个专业的图片研究员。当系统需要真实的历史照片、名人肖像或者当前事件的图片时,它会启动Google搜索API来寻找最合适的真实图片。比如在撰写关于埃菲尔铁塔的文章时,系统不会生成一个看起来像埃菲尔铁塔的图片,而是直接搜索并使用真实的埃菲尔铁塔照片。这确保了内容的真实性和时效性,避免了AI生成图片可能带来的虚假信息问题。

第二个工具是基于扩散模型的图像生成器,使用的是先进的Seedream 3.0模型。这个工具就像请来了一位极具创意的艺术家,专门负责创造那些现实中不存在或需要特殊艺术效果的图像。当需要展示未来城市的概念图、抽象的科学概念可视化,或者童话故事中的奇幻场景时,这个工具就会发挥作用。它能够根据文字描述创造出高质量、富有想象力的图像。

第三个工具是代码执行环境,这相当于配备了一个专业的数据分析师和图表制作专家。当需要生成精确的统计图表、数据可视化或者复杂的示意图时,系统会自动编写Python代码来创建这些图表。比如需要展示公司过去五年的销售趋势时,系统会编写代码生成专业的折线图,确保数据的准确性和图表的专业性。这个工具运行在安全的沙盒环境中,既保证了功能性又确保了安全性。

第四个工具是图像编辑器,使用Seededit 3.0技术。这就像团队中的专业修图师,负责对现有图片进行各种调整和改进。无论是对输入的图片、搜索到的图片,还是AI生成的图片,都可以进行精确的编辑。比如可以为图片添加标注、调整颜色、裁剪尺寸、或者添加特殊效果。这个工具让系统能够对任何图像进行后期处理,确保最终的视觉效果完美契合内容需求。

系统的智能之处在于如何选择合适的工具。LLM-I不是随机选择,而是基于对任务需求的深度理解来做决策。当用户要求"展示巴黎的著名地标"时,系统会选择搜索工具找到真实的照片;当用户要求"创造一个未来城市的概念图"时,系统会选择生成工具;当用户要求"制作销售数据的对比图表"时,系统会选择代码执行工具;当用户要求"给这张照片添加箭头标注"时,系统会选择编辑工具。

这种工具调用方式通过一个简洁的标签系统实现。系统在生成文本的过程中,会在需要图像的位置插入特殊的标签,格式类似于"{"source":"search", "description":"埃菲尔铁塔", "params":{"query":"埃菲尔铁塔 巴黎"}}"。这个标签包含了所有必要的信息:要使用哪个工具、图像的总体描述、以及具体的参数。当系统检测到这样的标签时,就会自动调用相应的工具,然后将生成或搜索到的图像替换标签,形成最终的图文混合内容。

这种设计的优雅之处在于其灵活性和可扩展性。与传统的固化系统不同,LLM-I可以轻松添加新的工具而无需重新训练整个模型。如果将来需要支持视频生成、音频处理或者其他新功能,只需要在工具箱中添加相应的工具,并在训练数据中包含相关样例即可。这就像一个模块化的乐高系统,可以根据需要不断扩展和改进。

二、强化学习训练:让AI学会"因材施教"的智慧

训练LLM-I系统最大的挑战是如何让AI学会在合适的时机选择合适的工具。这就像教一个新员工学会在不同情况下找不同的同事帮忙一样,需要大量的实践和反馈。

研究团队首先构建了一个专门的训练数据集,这个数据集的设计哲学是"工具导向"。与传统数据集不同,这里的每个样本都经过精心设计,目的是教会模型在各种约束条件下调用不同的工具组合。整个数据集包含约4000个样本,分为纯文本输入和图文混合输入两大类。

数据集的生成过程采用了巧妙的"隐式指导"策略。研究团队使用Gemini 2.5 Pro模型自动生成训练样本,但这些样本从不直接告诉模型应该使用哪个工具。相反,它们通过描述期望的结果来隐式地暗示所需的工具类型。比如当样本要求"添加黄色星号来标记重点区域"时,这自然暗示需要使用图像编辑工具,但模型必须自己推理出这个结论。

这种隐式设计的智慧在于避免了模型对明确指令的依赖。在真实应用中,用户不会说"请使用搜索工具找一张埃菲尔铁塔的图片",而是会说"我需要一张巴黎埃菲尔铁塔的照片"。通过隐式训练,模型学会了从用户的真实需求中推断出最合适的工具选择。

为了确保数据质量,研究团队实施了严格的多阶段验证流程。每个生成的样本都要经过GPT-4o的独立评审,检查三个关键方面:预期图像数量的一致性、指定工具对给定指令的适当性,以及对于图文混合样本,还要检查合成输入图像与其文本描述之间的跨模态对齐度。任何未通过验证的样本都会被丢弃,确保最终数据集的高质量和无歧义性。

数据集的一个重要特征是每个样本都标注了图像数量约束。这个元数据在强化学习训练过程中起到了规则指导的作用。约束类型分为四种:禁止图像(-1)、无约束(0)、精确数量要求(n>0)、或至少一张图像(Inf)。这些约束帮助模型学会在不同情况下生成适当数量的图像。

强化学习的训练策略采用了创新的混合奖励设计。传统的强化学习往往依赖单一的奖励信号,但LLM-I采用了三重奖励机制,就像一个学生同时接受三位不同老师的评价。

第一重奖励是基于规则的确定性奖励,这就像一个严格的数学老师,只关心答案是否完全正确。这个奖励主要检查模型是否遵循了图像生成约束,以及图像标签格式是否正确。对于定量约束,奖励函数设计得特别精巧:当生成图像数量不足时,奖励与实际生成数量成正比;当超出要求时,会有惩罚机制,但不会完全归零,给模型一定的容错空间。

第二重奖励来自大语言模型评判,这就像一位关注语言表达和逻辑思维的语文老师。这个评判者会从两个维度对生成内容进行1到5分的评估:文本叙述的流畅性、连贯性和相关性,以及工具使用标签的质量,包括标签放置的自然度和所选择的工具类型及参数的语义适当性。

第三重奖励来自多模态大语言模型评判,这就像一位既懂文字又懂艺术的综合评审老师。在图像生成并集成到最终输出后,这个评判者会从三个关键维度评估多模态内容质量:图像本身的技术和美学质量、图像与周围文本之间的语义对齐度,以及图像与整体任务目标的相关性。

这三重奖励的巧妙组合形成了最终的奖励信号。特别值得注意的是,基于规则的奖励对多模态奖励起到了门控作用,只有当模型首先满足了明确的图像数量约束后,视觉质量才会被考虑。这确保了模型不会为了追求漂亮的图像而忽略基本的任务要求。

训练过程使用了四种不同的模型骨干进行实验,包括Qwen3-4B-Instruct、Qwen3-30B-Instruct、Qwen2.5-VL-7B和Qwen2.5-VL-32B。针对不同的模型类型,研究团队选择了最适合的强化学习算法:对于专家混合(MoE)模型使用GSPO算法,对于其他模型使用GRPO算法。

训练的效果可以通过工具选择的F1分数曲线清晰地观察到。随着训练的进行,模型在选择合适工具方面的精确度和召回率都稳步提升。有趣的是,虽然训练过程中没有直接的工具使用奖励,但模型自然地学会了更智能的工具选择策略,这证明了强化学习不仅促进了工具调用能力,还增强了模型根据上下文做出更明智工具选择的能力。

三、测试时扩展:从"一次成型"到"精雕细琢"

在实际应用中,LLM-I还支持一种叫做"测试时扩展"的策略,这就像从快餐店的标准套餐升级到高档餐厅的定制服务。当用户对质量有更高要求,且愿意等待更长时间时,系统可以投入更多计算资源来获得更好的结果。

这个过程分为四个精心设计的阶段,每个阶段都有其特定的作用。首先是候选生成阶段,系统会针对同一个用户查询生成多个不同的完整回答。这就像一个创意团队同时提出多个设计方案,而不是只给出一个选择。每个候选回答都可能包含不同的工具调用组合和不同的创意方向。

接下来是工具调用检查阶段,这个阶段就像质量控制部门的初步筛选。系统会验证每个候选回答中工具调用的结构完整性和可执行性。那些包含格式错误或无法执行的工具调用的回答会被直接淘汰。这个筛选过程确保后续阶段只处理技术上可行的候选方案。

第三阶段是候选增强阶段,这是整个测试时扩展策略的核心创新。对于通过初步筛选的候选回答,系统会根据其使用的工具类型进行针对性优化。当候选回答请求图像时,系统会同时查询在线图片搜索和扩散模型生成两个选项,然后由多模态大语言模型评估哪个选项在语义上更匹配需求。如果代码执行失败,系统会将错误的代码和相关错误信息提供给模型进行修正,然后在沙盒环境中重新执行,直到获得有效的可视化结果或达到最大尝试次数限制。

最后是精炼和选择阶段,经过增强的多模态回答会传递给多模态大语言模型进行最终的优化处理。这个步骤主要改善模态间的连贯性和对齐度,确保视觉输出与文本解释无缝集成。最终,选择器模型会对所有精炼后的候选方案进行排序,选出质量最高的单一回答作为最终输出。

测试时扩展的实验结果证明了其有效性。在LLMI-Bench基准测试中,通过应用完整的四阶段策略,LLM-I-4B模型的性能从88.9提升到95.1,甚至超越了其30B参数的对应版本。这证明了计算资源的智能分配可以在很大程度上弥补模型规模的不足。

从计算开销的角度来看,测试时扩展策略的设计相当高效。工具调用可以并行处理,主要的额外开销只是选择器和精炼器模型的四次前向传播。选择过程特别高效,因为模型只需要输出最优索引而不是生成完整回答。相比之下,精炼阶段是最耗时的,因为它需要重写整个回答。

整个测试时扩展过程的时间开销大约在20秒左右,其中大部分时间用于精炼阶段。虽然这比标准推理慢,但对于需要高质量输出的应用场景,这种时间投资是值得的。就像定制服装比成衣需要更长时间,但最终的效果也更令人满意。

四、全新基准测试:从"装饰性"到"信息性"的评估革命

研究团队发现现有的图文生成评估基准存在两个严重问题,这促使他们开发了全新的LLMI-Bench基准测试。现有基准的第一个问题是任务过于简单和通用。大多数现有基准中的提示词类似于"生成一份带有文本和图像的北京旅游指南"这样的模糊要求。这些任务不需要深度推理,所要求的图像往往只是装饰性的,而非内容的核心组成部分。

更严重的是,这些图像通常信息密度很低,风格单一(主要是生活方式照片),可以通过标准的扩散模型轻松生成,无需复杂的规划。这就像用简单的填空题来测试学生的综合分析能力一样,无法真正评估模型生成有意义、上下文感知的视觉内容的能力。

第二个问题是评估协议过度依赖主观指标。现有基准通常使用GPT-4o等模型基于"文本-图像对齐"、"文本质量"和"图像质量"等宽泛标准来评分。这种方法存在严重缺陷,因为大语言模型往往会给出过于宽容的高分,即使对于不够理想的输出也是如此。研究团队在初步测试中发现,即使模型完全没有生成图像,只提供了文本描述,GPT-4o评估器仍然会给出比较好的评分。

为了解决这些问题,LLMI-Bench引入了全新的评估范式。首先,在任务设计方面,基准将图文生成任务重新框架为"迷你项目"。每个样本不再是简单的生成请求,而是提供具体的背景上下文或特定数据,要求生成的图像具有高信息价值和风格多样性。

这些任务超越了简单的摄影插图范围,包括数据分析图表、科学说明图和创意内容等多种类型。在这个框架中,图像不再仅仅是补充性的装饰,而是报告不可或缺的组成部分,承载着与文本协同作用的关键信息。每个图像都有明确的目的,反映了用户对视觉信息的真实需求。

在评估方法方面,LLMI-Bench从宽泛的主观评估转向了样本特定的客观评估协议。研究团队不再要求大语言模型给出整体质量评分,而是为每个"迷你项目"样本设计了一套具体且可验证的评估标准。

以销售趋势报告为例,评估标准包括具体的可验证检查项目,如"报告是否根据提供的数据准确生成了2014年至2025年销售的折线图,包含正确的数据点和标签?"这种方法将评估从主观判断转变为更客观可靠的能力测量。

对于基准中的每个样本,研究团队都定义了10个不同的评估指标。使用GPT-4o根据这些具体规则评估生成的报告,采用三点量表评分:0分(未满足要求)、1分(部分满足)、2分(完全满足)。这种方法显著提高了评估的客观性和可靠性。

最终的LLMI-Bench基准虽然样本量不大,只包含30个精心设计和人工审核的样本,但其价值在于质量而非数量。这30个样本涵盖了多样化的主题和用户需求,其中18个是纯文本输入,12个是多模态输入。研究团队故意选择了这种"质量重于数量"的策略,紧凑的规模使得严格且可管理的人工评估成为可能。

这种设计确保每个样本都可以被仔细分析,使研究者能够更深入、更准确地理解模型性能。相比于那些包含数千个样本但评估标准模糊的大型基准,LLMI-Bench提供了更加深入和可靠的评估结果。

基准测试的结果清晰地显示了LLM-I的优势。在LLMI-Bench上,LLM-I模型在规则评分、人工评分和工具调用成功率等各个维度都大幅超越了包括GPT-4o在内的现有最佳方法。特别值得注意的是,LLM-I-4B和LLM-I-30B在工具调用成功率上达到了完美的100%,这表明模型完全掌握了工具使用的技巧。

五、实验结果:全面碾压的性能表现

LLM-I的实验评估涵盖了四个不同的基准测试,结果展示了其在各个方面的显著优势。实验对比了三种主要的方法类别:两阶段组合方法(如GPT-4o配合DALLE-3、Gemini配合FLUX)、统一模型方法(如Show-o和Anole),以及工具增强方法(包括GPT-5和GPT-4o配合工具套件)。

在OpenING基准测试中,LLM-I展现出了全面领先的表现。该基准包含超过2000个样本,采用七个评估指标进行综合评估。LLM-I-30B在所有指标上都达到了顶级水平,整体得分8.66,显著超越了GPT-4o配合DALLE-3的8.20分。更令人印象深刻的是,即使是较小的LLM-I-4B模型,也以8.18的总分超越了大多数现有方法,证明了框架设计的有效性比单纯的模型规模更重要。

在ISG基准测试中,LLM-I同样表现出色。这个基准包含超过1000个样本,采用四个评估维度。LLM-I-30B在整体评分上达到了8.492,远超之前的最佳方法ISG的6.262。特别是在结构化内容生成方面,LLM-I-30B的得分为0.971,几乎达到了完美水平,而大多数对比方法在这个指标上的表现都相当有限。

最令人瞩目的成果出现在研究团队自己开发的LLMI-Bench基准测试中。在这个专门设计的高难度基准上,LLM-I的优势更加明显。LLM-I-30B的综合得分达到92.7,而GPT-4o配合工具的得分仅为67.0,差距达到25.7个百分点。更重要的是,LLM-I在工具调用成功率上达到了完美的100%,这意味着模型完全掌握了何时以及如何使用每个工具。

在研究团队构建的内部测试集上,LLM-I的表现同样令人印象深刻。该测试集包含超过200个样本,使用与训练期间相同的指标进行评估。LLM-I-30B在综合评分上达到89.9,在图像数量控制方面达到93.0的准确率,在各个维度的评分都显著高于基线方法。

特别值得关注的是工具使用能力的分析。研究团队通过追踪训练过程中的工具F1分数发现,随着强化学习训练的进行,模型在选择合适工具方面的精确度和召回率都稳步提升。虽然训练过程中没有明确的工具使用奖励,但模型自然地学会了更智能的工具选择策略。这表明强化学习不仅促进了工具调用能力,还增强了模型根据上下文做出明智工具选择的能力。

消融实验进一步验证了设计选择的重要性。当移除基于规则的奖励时,模型性能大幅下降,总分从8.18暴跌至4.76,这说明规则约束对于模型学习正确的图像生成行为至关重要。相比之下,移除LLM评判或MLLM评判的影响相对较小,因为这两个评判器在评估能力上存在一定重叠,都关注内容的定性方面。

工具消融实验揭示了多工具协作的价值。对于经过训练的LLM-I-4B模型,将其限制为"仅扩散"或"仅搜索"都会导致显著的性能下降,这表明高性能依赖于灵活运用多种工具的能力。有趣的是,未经训练的Qwen3-4B模型在限制为"仅搜索"时性能反而有所提升,这说明虽然该模型从搜索工具中受益,但在面对多个选项时可能在工具编排方面存在困难。

这些实验结果的意义不仅在于数字上的提升,更在于证明了"熟练工具使用者"范式相对于传统"全能解决者"范式的根本优势。LLM-I成功地将高层推理与低层合成解耦,实现了前所未有的灵活性和上下文适应性。这种设计理念为未来的多模态AI系统发展指明了方向。

Q&A

Q1:LLM-I系统包含哪些具体的工具,每个工具的作用是什么?

A:LLM-I包含四个专业工具:在线图片搜索工具用于获取真实的历史照片和当前事件图片,确保内容真实性;扩散模型生成工具用于创造现实中不存在的创意图像和抽象概念可视化;代码执行工具用于生成精确的数据图表和统计可视化;图像编辑工具用于对任何图片进行后期处理,如添加标注、调整颜色等。每个工具都有明确的专长领域,系统会根据任务需求智能选择最合适的工具。

Q2:LLM-I的训练过程使用了什么特殊的方法来提高性能?

A:LLM-I采用了创新的三重强化学习奖励机制。第一重是基于规则的确定性奖励,确保模型遵循图像生成约束和格式要求;第二重是大语言模型评判,评估文本质量和工具使用的合理性;第三重是多模态模型评判,评估最终图文内容的视觉质量和语义对齐度。这种混合奖励设计比传统单一奖励更全面,能够从多个角度指导模型学习正确的工具使用策略。

Q3:LLM-I相比GPT-4o等现有顶级模型有什么优势?

A:LLM-I的最大优势是克服了"一个工具解决所有问题"的限制。当需要真实历史照片时,传统模型只能生成虚假图像,而LLM-I可以搜索真实照片;当需要精确数据图表时,传统模型难以保证准确性,而LLM-I可以通过代码生成确保数据准确。在LLMI-Bench基准测试中,LLM-I的表现比GPT-4o高出25个百分点,工具调用成功率达到100%,证明了这种多工具协作策略的显著优势。

来源:科技行者一点号1

相关推荐