摘要:阿里达摩院、湖畔实验室跟浙江大学一起,搞出了个叫WorldVLA的东西。这玩意儿不是简单的AI模型升级,而是想让AI真正“理解”世界,之前AI能看东西、能做动作,现在终于能搞懂动作和环境的关系了。
阿里达摩院、湖畔实验室跟浙江大学一起,搞出了个叫WorldVLA的东西。这玩意儿不是简单的AI模型升级,而是想让AI真正“理解”世界,之前AI能看东西、能做动作,现在终于能搞懂动作和环境的关系了。
这步突破比单纯提升识别精度实在多了,毕竟机器人光会动没用,得知道为啥这么动、这么动会有啥结果。
之前AI圈有个头疼事儿,VLA模型和世界模型各干各的,像俩半块拼图凑不到一起。
VLA模型能让机器人做动作,但它只把动作当“输出”,根本不琢磨这个动作意味着啥,世界模型倒是能预判环境变化,可它自己不会生成动作,遇到要主动干活的场景就歇菜。
我之前看机器人抓奶酪的实验,基线模型就傻愣愣冲过去,抓不住就放弃,现在才明白,问题出在这俩模型没配合上。WorldVLA的解决思路挺直接,搞了个统一的框架,把图像、动作、文本都拆成“小积木”(也就是token)来处理。
本来想简单说下这三套分词器,后来发现得讲清楚咋分的才好懂。
图像分词器用的是VQ-GAN,把图片压缩后拆块,256×256的图拆256块,512×512的拆1024块,码本大小是8192,动作分词器更细,把机器人动作拆成7个维度,位置、角度、夹爪状态都算上,每个维度再分成256个区间,文本分词器用的是现成的BPE,词表有65536个词,还特意把图像和动作的“积木”也加了进去。
还有个细节特别关键,就是注意力掩码的设计。传统模型用的因果掩码有个毛病,前面动作错了,后面全跟着错,像多米诺骨牌似的。
WorldVLA改了个新掩码,让当前动作只看图像和文本,不被前面的错误影响,这样就能同时生成好几个动作。很显然,这个改动针对性极强,就是奔着解决动作生成的连锁错误去的。讲完设计,就得看实际表现了。
研究团队把动作模型和世界模型的数据混在一起训练,效果很明显。就算没经过预训练,WorldVLA也比离散化的OpenVLA表现好,而且图像分辨率越高,模型越厉害,512×512的比256×256的抓东西更准。
我觉得这很好理解,就像人干活得看清楚细节一样,机器人抓东西也得靠高清图像找准位置,Chameleon主干模型本来就在高分辨率下优化过,算是占了个优势。
光在实验室厉害不算啥,能落地到真实场景才叫本事。现在不少场景已经用上了这个技术,厨房操作就是个典型例子。
纯世界模型在厨房经常出洋相,要么拉不开抽屉,要么移动盘子时把碗弄“消失”,WorldVLA就不会这样,它能连贯地完成动作,还能确保碗平稳放在灶台上。
还有广州享刻智能的炸物机器人,用上WorldVLA后订单都排到百台了,这说明市场是认这个技术的。
跟其他公司的技术比,WorldVLA也有自己的定位。特斯拉的世界模拟器主要给自动驾驶用,侧重数据闭环,智源的Emu3.5擅长视频生成,但动作规划不行,华为的乾崑ADS3.0搞的是车路云一体化。
如此看来,WorldVLA的核心优势就是“动作生成+环境理解”的结合,专门解决机器人“动手又动脑”的问题,跟这些竞品刚好错开了赛道。
现在具身智能的商业化也在加速,医疗和农业领域都有突破。力之智能搞的康复机器人,结合了脑机接口和WorldVLA相关技术,解析脑电信号的准确率能超90%,千寻智能的叠衣机器人Moz1,误差率能控制在5%以内,年底就要量产了。
我挺看好这种“小而精”的落地方向,比起追求大而全的概念,这种能解决具体问题的技术更有价值。当然了,WorldVLA也不是没瓶颈。
首先是实时性,自回归模型解码有点慢,得靠TensorRT这类硬件加速才行,其次是数据偏见,如果训练数据不够多样,模型可能只懂一部分场景,还得靠OpenX-Embodiment这类数据集补短板,最后是伦理风险,机器人自主决策多了,得有个风险评估模块,避免泄露隐私或者做出错误判断。
不过整体来看,这个技术的方向是对的。现在国家也在支持具身智能,北京、上海、粤港澳大湾区都建了创新中心,投的钱超45亿元,预计2030年市场规模能到4000亿元,2035年能破万亿。
小米的陈龙说“VLA+世界模型才是通往AGI的答案”,我挺认同这个说法。AI要想真正融入生活,光会看、会动还不够,得学会理解世界的规律,WorldVLA算是在这条路上走了关键一步。
WorldVLA的意义不仅在于技术突破,更在于它为AI打开了“理解世界”的大门。未来要是能解决实时性、数据偏见这些问题,机器人说不定真能像人一样,既能动手干活,又能琢磨干活的逻辑。
对于普通人来说,这意味着以后会有更多“懂事”的机器人走进家里、走进工作场景,帮我们解决实际问题,这大概就是技术进步最实在的价值吧。
来源:鉴史观一点号