摘要:这项由三星SAIL蒙特利尔实验室的Alexia Jolicoeur-Martineau领导的研究发表于2025年1月,论文标题为《Multi-Agent Game Generation and Evaluation via Audio-Visual Recor
这项由三星SAIL蒙特利尔实验室的Alexia Jolicoeur-Martineau领导的研究发表于2025年1月,论文标题为《Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings》。有兴趣深入了解的读者可以通过访问完整代码和论文。
当我们看到一个孩子学会骑自行车的过程时,会发现一个有趣的现象:孩子不仅会听大人的指导,还会观察自己的动作,看到自己摇摇晃晃就知道要调整。现在,三星的研究团队让AI也学会了这种"边看边学"的能力,不过它们学的不是骑车,而是制作视频游戏。
这个研究解决了一个看似简单却极其复杂的问题:如何让电脑自动制作出好玩的游戏?你可能觉得现在AI不是已经很厉害了吗,写代码、画图、写文章样样都行。但是制作游戏却是另一回事。游戏不仅要有代码,还要有图片、音效、3D模型,更重要的是,这些元素必须协调配合才能创造出流畅有趣的体验。就像制作一道复杂的菜肴,仅仅有好食材是不够的,还需要知道何时加盐、何时翻炒、火候如何掌握。
研究团队的创新点在于开发了两个相互配合的AI系统。第一个叫做AVR-Eval,就像是一个专业的游戏评测师,它能够录下游戏运行的画面和声音,然后像人类玩家一样判断哪个游戏更好玩。第二个叫做AVR-Agent,则是真正的游戏制作专家,它不仅能写代码,还能从资源库中挑选合适的图片和音效,更神奇的是,它能根据AVR-Eval的反馈不断改进自己的作品。
一、AI评测师是如何工作的
要理解这个研究的巧妙之处,我们先来看看AVR-Eval这个AI评测师是怎么判断游戏好坏的。传统的方法就像是只看菜谱来评判一道菜的好坏,而AVR-Eval的做法更像是真的品尝这道菜。
当两个游戏摆在AVR-Eval面前时,它会像一个认真的美食评委一样工作。首先,它会录制每个游戏的完整运行过程,包括画面和声音,就像录制烹饪节目一样。然后,一个专门处理音视频的AI模型会仔细观察这些录像,描述每个游戏的表现。这个过程就像一个专业品酒师在品尝红酒时,会仔细观察酒的颜色、闻香气、品口感。
AI评测师使用了多个维度来判断游戏质量。它会检查游戏是否符合预期描述,比如要求制作一个弹球游戏,结果做出来的是俄罗斯方块,那显然不合格。它还会评估视觉设计是否吸引人,音效是否搭配得当,游戏行为是否正常运行。对于游戏类内容,它还会特别关注游戏性是否有趣、AI控制的角色是否表现得聪明。对于动画类内容,它则更注重动作的流畅性和创意表现。
最有趣的是,AVR-Eval不是一个模型单打独斗,而是两个AI的通力合作。第一个AI专门负责观看游戏录像并做出初步判断,就像一个经验丰富的游戏测试员。然后,一个更强大的文本AI会审查这个判断,做出最终决定,就像一个资深编辑在审核测试员的报告。
研究团队通过大量测试验证了这个评测系统的可靠性。他们发现,AVR-Eval几乎不会被有问题的游戏蒙骗,比如遇到只显示标题画面的半成品游戏,它只有0.91%的概率会给出好评。面对内容不符的游戏,比如要求做烟花动画却做成了弹球游戏,它只有6.47%的概率会搞错。更重要的是,当把人类制作的高质量游戏和AI生成的游戏放在一起比较时,AVR-Eval在67.78%的情况下都能正确识别出人类作品更优秀。
二、多才多艺的游戏制作大师
有了可靠的评测师,接下来就该看看真正的游戏制作专家AVR-Agent是如何工作的。如果说制作游戏就像烹饪一道复杂的大餐,那么AVR-Agent就是一个既懂得挑选食材,又掌握烹饪技巧,还能根据食客反馈不断改进的全能厨师。
AVR-Agent的工作流程就像一个有条不紊的创作过程。首先,当收到制作游戏的需求时,比如"制作一个2D平台跳跃游戏",它会像一个经验丰富的厨师准备食材一样,从庞大的资源库中精心挑选合适的图片、音效和3D模型。这个资源库就像一个装备齐全的厨房,里面有各种风格的游戏资源,从复古像素风格到现代3D模型应有尽有。
接下来进入最关键的创作阶段。AVR-Agent不会只做一个版本就满足,而是像一个追求完美的艺术家,会先制作好几个不同的初始版本。然后,它会请AVR-Eval这个专业评测师来看看哪个版本最有潜力,选出最好的那个作为基础继续改进。这就像一个画家会先画几个草稿,选出最满意的那个再精心雕琢。
最精彩的部分是迭代改进过程。AVR-Agent会让自己制作的游戏真正运行起来,就像厨师会亲自品尝自己做的菜一样。它会录制游戏的运行画面和声音,然后请一个专门的AI助手观看这些录像,提供详细的反馈意见。这个AI助手就像一个诚实的朋友,会指出游戏哪里做得好,哪里还需要改进。同时,AVR-Agent还会检查代码运行过程中是否出现错误信息,就像厨师会注意炉火是否正常、调料是否充足。
基于这些多方面的反馈,AVR-Agent会对游戏进行修改和完善。这个过程可能会重复很多次,每一次都让游戏变得更好一点。研究团队设定的默认流程是进行10到20次这样的改进循环,就像一个工匠会反复打磨自己的作品直到满意为止。
特别值得一提的是,AVR-Agent在处理游戏时还考虑了一个实际问题:游戏需要玩家操作才能展现其魅力。为了让评测过程能够顺利进行,AVR-Agent会为每个游戏自动添加AI控制功能,让虚拟玩家能够智能地玩游戏,展示游戏的各种特性。当然,它也会保留人类玩家接管控制的选项。
三、实战测试的意外发现
研究团队对这套系统进行了全面的实战测试,结果既有令人欣喜的成功,也有出人意料的发现。他们选择了10个不同类型的项目进行测试,包括5个动画项目(弹球物理模拟、3D立方体旋转、烟花粒子效果、钟摆运动、太阳系轨道模拟)和5个游戏项目(2D平台跳跃、格斗游戏、保龄球、纸牌接龙、放置类游戏)。
测试涉及了9个不同的编程AI模型,从闭源的商业模型到开源的社区模型,规模从160亿参数的轻量级模型到6710亿参数的超大规模模型。这就像是邀请了各种水平的厨师来参加同一个烹饪比赛,有的是米其林餐厅的主厨,有的是刚刚学会基本技能的新手。
最令人鼓舞的发现是,AVR-Agent确实能够显著提升游戏制作质量。在对比测试中,使用AVR-Agent制作的游戏比简单的一次性生成要好得多。具体来说,在所有测试案例中,有79.2%的情况下AVR-Agent的最终作品都比初始版本更优秀。这就像是告诉我们,反复修改和完善确实能让作品变得更好。
特别有趣的是关于"选择最佳初始版本"策略的发现。研究发现,与其花费同样的计算资源来进行更多轮次的改进,不如在开始时就制作多个候选版本,然后选择最好的那个进行后续改进。这个发现就像是告诉我们,在雕刻一块木头之前,先从几块原材料中挑选质地最好的那块,比在质地一般的木头上花费更多工夫要明智得多。
然而,最出人意料的发现是关于资源和反馈的作用。按照常理推测,给AI提供高质量的图片、音效等资源,应该能帮助它制作出更好的游戏,就像给厨师提供优质食材应该能做出更好的菜一样。但测试结果显示,当前的AI模型并不能有效利用这些外部资源。同样令人困惑的是,尽管AVR-Agent能够获得详细的音视频反馈,但这些反馈对改进效果的帮助也很有限。
这个发现揭示了人类和AI在创作过程中的根本性差异。对于人类游戏开发者来说,高质量的美术资源和来自测试玩家的反馈是制作优秀游戏的关键要素。但对于当前的AI模型来说,它们似乎更依赖于自身的训练数据和内在逻辑,而不太善于整合外部资源和反馈信息。
四、不同模型的表现差异
在这场AI游戏制作大赛中,不同模型的表现差异相当明显。Qwen3-Coder-480B这个拥有4800亿参数的超大模型表现最为出色,紧随其后的是Kimi-K2-1T模型。这两个模型就像是经验丰富的全能开发者,不仅代码写得好,对游戏设计也很有见解。
有趣的是,模型规模并不总是决定性因素。一些专门针对编程任务优化的中等规模模型,表现往往比通用的大型模型更好。这就像专业的面包师在制作糕点时,往往比全能的大厨更有优势一样。研究团队发现,那些在大量代码数据上专门训练过的模型,更容易理解游戏制作的复杂需求。
令人意外的是,一些较小的模型,比如只有240亿参数的Devstral-Small-2505,在某些测试中表现得非常不错。这说明模型的训练质量和专业化程度比纯粹的规模更重要。就像一个专精某种菜系的小餐厅主厨,可能比大酒店的总厨在特定菜品上做得更出色。
五、技术细节的巧思
这项研究在技术实现上有许多巧妙的设计。比如在处理网页音频播放的问题上,由于浏览器的安全策略通常禁止自动播放音频,AVR-Agent会聪明地在游戏中添加一个特定的开始按钮,并让测试系统自动点击这个按钮来启动音频。这种细节考虑就像一个贴心的管家,会提前解决客人可能遇到的小麻烦。
为了确保游戏测试的全面性,AVR-Agent还为每个游戏自动添加了AI玩家功能。这些虚拟玩家会智能地操作游戏,展示游戏的各种特性和功能。同时,它们也保留了让人类玩家随时接管的选项。这就像是为每道菜都配备了专业的品鉴师,确保每个细节都能被充分展示和评估。
评测系统AVR-Eval采用了多轮对话的方式来提高判断准确性。它不是简单地一次性对比两个游戏,而是先分别详细观察和描述每个游戏,然后再进行比较。这种方法就像是一个认真的评委,会先仔细品味每道菜,记录详细的感受,最后再做出综合判断。
六、面向未来的设想
研究团队已经考虑到了技术发展的趋势,设计了AVR-Agent 2.0的框架。目前的系统需要两个不同的AI分工合作:一个专门写代码,另一个专门分析音视频。但随着多模态AI技术的发展,未来可能会出现既能编程又能直接处理音视频的全能AI模型。到那时,整个系统会变得更加简洁高效,就像从需要多个专业厨师协作的复杂厨房,进化为一个全能大厨独立操作的高效工作台。
研究团队还准备了一个更具挑战性的测试基准,包括需要大型团队多年开发的3A级游戏项目,比如包含多个星系和行星的3D太空开放世界游戏,或者拥有多个角色和不同技能树的角色扮演游戏。这些项目就像是烹饪界的"满汉全席",目前的AI还无法胜任,但为未来的技术发展提供了明确的目标。
七、对普通人意味着什么
这项研究的意义远超出了游戏制作领域。它展示了AI如何通过观察自己的"作品"来进行自我改进,这种能力可能会在很多创作领域发挥作用。将来,我们可能会看到AI不仅能制作游戏,还能创作交互式教育内容、制作个性化的娱乐体验,甚至帮助普通人实现自己的创意想法。
对于游戏爱好者来说,这项技术可能会让游戏制作变得更加平民化。以前需要掌握编程、美术、音效等多种技能才能制作游戏,现在或许只需要用自然语言描述自己的想法,AI就能帮助实现。这就像从需要专业烹饪技能才能做出美食,变成了只需要描述口味偏好就能获得定制菜谱一样。
不过,这项研究也提醒我们,AI虽然在某些方面已经很强大,但在整合多种资源和利用反馈方面还有很大的提升空间。这说明人类的创造力和综合判断能力在很长时间内仍然是不可替代的。AI更像是一个强大的工具,能够帮助人类更好地表达创意,而不是完全取代人类的创造过程。
研究团队坦诚地指出了当前技术的局限性。他们发现,虽然AVR-Eval已经相当可靠,但仍然会在0.91%的情况下对有问题的内容给出错误评价。此外,这个系统目前还没有直接接受人类偏好测试,所以我们还不确定它的判断是否真的符合普通玩家的喜好。
说到底,这项研究就像是给AI装上了一双能够观察自己作品的眼睛,让它能够不断学习和改进。虽然目前的AI还不能完全像人类那样灵活地运用各种资源和反馈,但这种"边做边学"的能力本身就是一个重大突破。随着技术的不断发展,我们有理由期待未来的AI能够成为更加得力的创作伙伴,帮助更多人将创意变成现实。
这个研究最有价值的地方可能在于它提出了一个全新的思路:不是让AI一次性生成完美的作品,而是让它学会持续改进。这种思路不仅适用于游戏制作,还可能在很多其他创作领域发挥作用,最终让AI成为真正理解创作过程的智能助手。
Q&A
Q1:AVR-Eval是什么?它是如何判断游戏好坏的?
A:AVR-Eval是一个AI游戏评测系统,它通过录制游戏的画面和声音来判断质量。工作时会先让专门的AI观看游戏录像并描述表现,然后由更强大的文本AI做出最终评判,就像专业评委品尝美食一样仔细分析每个细节。
Q2:AVR-Agent制作的游戏质量如何?比人工制作的好吗?
A:AVR-Agent制作的游戏比简单的一次性AI生成要好很多,在79.2%的测试中都优于初始版本。但与人类制作的高质量游戏相比还有差距,人类作品在67.78%的情况下被评为更优秀。不过它已经能制作出可以正常运行和游玩的完整游戏。
Q3:普通人能使用这个技术制作游戏吗?什么时候能普及?
A:目前这还是研究阶段的技术,普通人暂时无法直接使用。研究团队已经在GitHub上开源了代码,但需要一定的技术背景才能运行。随着技术发展,未来可能会出现更简单易用的版本,让普通人也能通过描述想法来制作游戏。
来源:新浪财经