这篇文章 [1] 的名字「Lumine」,这个单词也是原神中主角之一的妹妹「荧」的英文名字,看起来,作者还是有做功课的。摘要:因此,我还帮忙想了个名字,叫做「LumineTrace」,寓意为模拟主角「荧」的「行踪轨迹」来游历提瓦特。
另外,我觉得这个名字本身就暗示了这项技术的一个目标,那就是,像一名真正的玩家一样去在提瓦特大陆行动。
最开始,我看到这个文章题目的时候,我想的是,这好像撞词条了,感觉会有语义/词条污染的问题。
因此,我还帮忙想了个名字,叫做「LumineTrace」,寓意为模拟主角「荧」的「行踪轨迹」来游历提瓦特。
后面想想,这个名字其实也不错,我会在后面解释。我现在在想,后面会不会有「Lumine Plus」这篇文章呢2333333(逃
写到这里,好像有点跑路,正文没聊,先聊了半天文章标题。
说回到这篇文章,作为一个长期关注人工智能的计算机从业者,也作为一个每天跑图清体力的原神玩家,我第一次看到这个项目时的感觉其实不是震惊,而是就知道有这么一天,只是今天终于来了而已。
看到这个回答,我的第一反应是:「人工智能」+「原神」,这真的是双厨狂喜了2333333。
经常看我回答的朋友应该知道,我可是资深「原神」玩家,乃至「米哈游」游戏玩家了。当然,同时也是计算机行业从业人士。
从技术角度看,Lumine 的意义远不止让 AI 玩原神,而就是像我对题目的解读,不是跟随「LumineTrace」,而是成为「Lumine」 [2] 。当下,大量关于通用智能体的研究都聚焦在模拟环境、教学关卡或特制接口。例如 Minecraft、Unity 或者开放接口的 3D 仿真环境,这些环境虽然便于训练,但距离真实复杂软件与真实玩家的游戏环境还是有数量级的差距。
这次直接把《原神》作为试验场,相当于直接给普通旅行者把原神「世界等级」拉满了,可以说挑战度还是很高的。
作为一个原神玩家,我自然了解这其中的不易:巨大的开放世界地图、连续数小时的主线任务链、战斗 + 解谜 + GUI 多模态交互、依赖键鼠的即时控制、动态环境与角色机制……这些对任何 agent 都是地狱级挑战。
能在这样的环境中,在真实大型 3D 开放世界里,完成主线、理解界面、解决战斗、对话 NPC、操作背包、甚至进行跨地图长距离导航,而且是用人类方式来看屏幕像素、用键鼠控制,不是依赖游戏内部 API 或这说侵入式的 hook,说明其起码在这个游戏上是真正实现了具备了视觉理解、动作控制与高层推理能力整合的「智能体」的。
写到这里,正好给大家看看这篇文章的Prompt 吧,在文章附录中给出的内容,真的很简单。(原始提示就是用中文写的)
指令遵循Prompt :
系统推理Prompt:
结合论文给出的训练方法,「Lumine 」的路线跟近两年 AI 走向越来越接近,既统一输入(屏幕像素)与统一输出(键鼠动作),用一个视觉语言模型做贯通的感知、理解、推理和决策。
先用大规模人类基础操作,紧接指令数据学对齐,再用少量高价值的推理数据补齐复杂任务能力,可以说这套方案非常工程化。
第一步其实很简单,机器要先学会的是:我怎样控制键盘和鼠标,才能在这个世界正常活动?
这其实就是一个正常人类玩家的想法,到底是像英雄联盟那个鼠标右键点击来走路,还是像DNF那样上下左右,亦或是WASD来走路,还是其它方式呢?
大模型如果没有这种基础,它根本没办法进行后续做任务,逛地图等行为。
所以,根据原文的描述,「Lumine 」用了1731 小时的真实玩家游戏数据来学习最底层的技能,比如怎么跑、跳、爬墙,怎么稳定调整视角而非乱晃,怎么拾取物品、怎么使用地图、切任务、换角色等等。
这里更具体点如下图所述:
其实,这篇文章是从 2424 小时原始玩家录像里,挑出 1731 小时能用的训练数据,让模型学会怎么控制身体、理解画面、正常玩游戏的。
去掉的数据其实也很容易理解,像我这种玩家经常看风景,或者有事离开屏幕,就会挂机、发呆、原地转圈,还有卡住、迷路、无动作,鼠标360°天旋地转把自己玩晕了等等数据,都过滤掉。
第二步,就是把其中一部分标注成带指令的任务数据,也就是数据打标。
光有操作数据还不够,Lumine 想要理解人类指令,必须知道玩家正在执行什么,因为什么目标而执行的这段操作。
例如,玩家是在找路、和NPC对话,还是开宝箱,以及战斗呢?
所以,他们又从1731 小时能用的训练数据里,挑选了 165 小时出来,让人工标注。
这些标注用来训练一个分类器,让它能自动为 2424 小时全部数据贴上标签,算是一个半监督模型。
然后,然后为了让数据更精准,他们又引入GPT-4.1 来自动生成每段视频的文字描述,并且再过滤掉与指令不符或动作错误的片段,最终得到了一套 200 小时的高质量「指令跟随」数据集,差不多相当于原数据的10%吧。
第三步,文章还额外收集 15 小时高难度且需要推理的数据。
对于像我这样的原神玩家来说,这部分很容易理解。
因为原神并非所述的弱保软游戏,这只是从强度方面来讲。但实际上,有很多操作不是简单照指令做,而是需要分步骤规划,然后观察、推断,并且做出决策的。
很简单的情况,例如原神很多副本和大世界里的解谜,你都得先观察这个谜题,例如提示、符号、元素标识,来找出对应的解决方案,有时还得切角色什么的,比如我刚玩的时候经常临时切出安柏来完成火元素解密。
再例如,编辑圣遗物、菜单操作等复杂 GUI 推理。
对于这部分游戏操作内容,文章基于人工精挑了 15 小时,并逐帧标注其推理意图,这让 Lumine 具备了遇到没见过的新情况,也能靠推理解决的能力,也就是论文里说的 「hybrid thinking」。
可以说,正因为这套层层递进的数据管线,Lumine 才能表现得像一个真正的熟练玩家。
作为原神玩家,我看到更直观的意义:Lumine 其实已经具备了一些高智慧或者说直觉玩家才会有的能力。
它在蒙德主线里能够在乱七八糟的地形里找路、在战斗中主动规避伤害、在璃月陌生地形中摸索到仙人所在的深山位置,还能自然地和 NPC 对话推进任务。
最关键的是,它是以纯视觉推断界面按钮位置,而不是靠坐标或接口读数,更非「网络攻击」里常用的hook机制等等。
这意味着它学到的是「如何像人类一样阅读游戏 UI」,而不是「如何按照脚本触发事件」。
文章还进行了游戏能力的迁移测试,证明其形成的认知并不是围绕原神硬编码的,而是更通用的「如何在复杂 3D/2D 世界中行动」。
例如,文章还提到,「Lumine 」在没有针对星穹铁道做额外微调的情况下,被直接丢进「星穹铁道」,成功完成了该游戏第一章、全长约 5 小时的主线任务。
这也就是我上面说的通用能力,即在原神环境里的表现之外的零微调跨游戏泛化能力,这是很重要的,迁移和复用是非常关键的特性。
这种通用,其实更为关键,也是更大的「希望」。
作为玩家,我甚至开始想象一个未来:我在上班,它在家里帮我打周本、跑图、收资源、刷圣遗物。
甚至于,还能根据我的规划,帮我倒腾背包、抽卡拍照,完全不需要外挂,只靠像人一样的操作。
当然了,米哈游会不会把这当外挂,我姑且还要观察一下(逃
那么,这项技术真正的应用前景是什么?我认为它远不止游戏。
游戏只是一个极佳的训练场,一个复杂而安全的模拟世界。
「模拟」之后是什么?当然是「真实」。
当一个智能体能够在原神这样的高度复杂世界中看屏幕、按键鼠完成数小时任务的时候,我认为其本质上已经掌握了一项能力,那就是屏幕智能或者说UI智能。
不用说未来,其实哪怕就在当下,软件世界也无处不在,网页、办公软件、操作系统界面、3D 建模工具、视频编辑、写代码、vibe coding,等等等等,其实不严谨的说,都可以等价为一个需要视觉理解和鼠标键盘操作的虚拟世界。
如果 Lumine 的框架走向成熟,给智能体一个显示器和多个输入设备(例如键鼠),其便可以学着使用复杂工具,就像玩家学着完成任务一样去做。
只不过,游戏任务变成了现实任务。
来源:趣闻捕手一点号
