智能化,人形机器人的价值变量

B站影视 港台电影 2025-06-27 12:53 1

摘要:自成立以来,特斯拉一直没有停止过对自动驾驶技术的探索。马斯克的想法很简单:既然人类可以通过大脑操控汽车,那只要给汽车配备一个类似的“AI大脑”,那么汽车同样可以自动行驶。具备智能能力的汽车,将史无前例地成为人类信息系统的组成部分,从而具备全新价值。

对高附加值的探索和追逐,永远是一个产业的圣杯。

自成立以来,特斯拉一直没有停止过对自动驾驶技术的探索。马斯克的想法很简单:既然人类可以通过大脑操控汽车,那只要给汽车配备一个类似的“AI大脑”,那么汽车同样可以自动行驶。具备智能能力的汽车,将史无前例地成为人类信息系统的组成部分,从而具备全新价值。

不久前,马斯克宣布将于2025年6月在得克萨斯州奥斯汀推出基于纯人工智能的全自动驾驶(FSD)服务,仅依靠摄像头、自研AI芯片及AI软件就能够实现L4-L5级别的自动驾驶。

能够受益于AI技术,使价值得到长足提升的产业,并不只有汽车产业本身。另一个更值得期待的产业是人形机器人。

马斯克认为人形机器人的需求会超过汽车,未来人形机器人的数量可能达到200-300亿。长期来看,他判断特斯拉未来的价值可能会来自于人形机器人Optimus。

今年初,很多人为春晚扭秧歌的人形机器人所惊艳,各种人形机器人翻跟头、跳舞的视频火爆全网。随着新鲜感褪去,人们开始对人形机器人的本质价值提出了疑问。

如今,随着具身智能技术的发展,更多具备智能移动操作能力的人形机器人开始走向应用场景,走向产线开始打工。

尤其是大洋彼岸的人形机器人公司,比如去年特斯拉让Optimus 开始进厂打工,学会了分装电池,即使失败,也能自主纠正。

Agility Robotics外派由八台Digit组成的搬砖小分队,在大型展会上赚外快。在年底成功拿到汽车供应商舍弗勒的订单,环球务工即将启动。今年五月,它们公布了一项全新成就: Digit已经在第一个商业化客户,物流巨头GXO的场景中完成了第30万件商品的流程履约。

老网红波士顿动力Atlas也没闲着,它们开始在现代汽车的工厂里搬运零部件,并强调是自主操作。

另外一家成立仅3年的创业公司Figure AI,它们的CEO Brett Adcock放出了一段长达一小时的视频,展示了Figure 02不间断分拣物流包裹的能力。

在国内,“人形机器人第一股”优必选跟多家新能源车企合作,其工业人形机器人Walker S1在比亚迪长沙工厂与无人车协同作业,打通物流最后10米,实现“真无人物流”。

在北汽与华为联合打造的行政级纯电豪华旗舰轿车生产基地——享界超级工厂,Walker S1在总装车间执行仪表线物料检测任务,智能化检测准确率达99%。它还获得奥迪一汽首个人形机器人“offer”,执行空调泄漏检测任务。

今年3月,优必选在极氪5G智慧工厂开展了全球首例多台、多场景、多任务的人形机器人协同实训,从单体自主向群体智能进化。

密集实训之后,优必选拿到人形机器人行业第一个公开的车厂订单——所涉及的产品主要是工业人形机器人Walker S1与商用版人形机器人Walker C,相关产品将用于汽车工厂的生产制造和商用接待等环节。这是人形机器人企业在工厂制造业场景全球首次签署小批量人形机器人采购合同。

在极氪工厂里协同搬运的优必选工业人形机器人Walker S1

人形机器人并非新概念,但在一个又一个人形机器人走向产线背后,似乎再次证明了“智能”的重要性——它正在给人形机器人的产业化,甚至是人形机器人的价值提升这件事上猛踩油门。

抛开社交媒体上花式空翻的小视频,人形机器人的走红并非一个孤立事件,而是人工智能产业进步的自然结果。

“具身智能”这一概念的提出可以一路追溯到1950年,英国科学家图灵在论文《计算机器与智能》(Computing Machinery and Intelligence)中提出,将人工智能融入机器人等物体实体,就可以赋予其感知、学习和与环境交互的能力。

无论是当时还是现在,人工智能算法的结构都取材自人脑的运作方式,但由于其消耗的数据规模和吞噬的算力实在太大,导致以神经网络为代表的技术路径,长期处于“理论上完美但无法落地”的尴尬境地。

即便在集成电路产业高速发展的21世纪初,人工智能的种种设想对产业界而言,依然属于一个科幻级别的规模,这也造就了它长达半个多世纪的万马齐喑。

2012年,新任诺奖得主Geoffrey Hinton带着两个学生参加ImageNet图像识别大赛,以84%的识别准确率夺得冠军。此后,神经网络从多种技术路线中脱颖而出,成为人工智能的唯一解。

2017年,Google八位AI科学家公开了Transformer架构,开启了大模型时代,人工智能开始具备“生成”与“决策”的能力。在这种情况下,把人工智能带入真实物理世界这个命题,就自然而然摆上了产业界的日程表。

按照黄仁勋的说法,“我们正处于生成式人工AI阶段,将走向智能体AI时代,随后是物理AI时代。”

实际上,无论是ChatGPT这类聊天机器人,还是基于大模型能力的各类AI Agent,已经可以视为具备感知和决策能力的机器人,只不过这类“机器人”局限在数字环境,但人形机器人需要与真实的物理世界交互,甚至投入到真实的工业场景里,参与生产活动,这都是程序和代码力所不能及的地方。

也就是说,人形机器人的背后,是计算机科学和精密制造这两门产业的结合。

日本曾是一个不折不扣的机器人大国,2000年,本田第一代人形机器人ASIMO横空出世,虽然行动略显笨拙,但为具身智能留下了许多遐想。

2014年奥巴马访问日本,曾与ASIMO机器人亲密互动。但四年之后,本田却悄悄解散了ASIMO开发团队,在人形机器人爆发的前夜默默下了牌桌。

2014年,奥巴马访日期间与本田ASIMO互动

究其原因,日本制造业的强大如同硬币两面,一面是发达的机械制造和汽车工业,另一面则是产业结构性偏科,在互联网、云计算等未能跟上节奏,导致计算机科学人才供给不足,演化为人工智能时代的追赶乏力。

被装进历史故纸堆的ASIMO机器人,恰恰体现了人形机器人最关键的变量:智能化

传统机器人大多针对特定需求或者单一场景设计,程序相对固定,操作简单追求高效,比如焊接、分拣、运输等等。与其说机器人,倒不如说更接近“自动化设备”。

而人形机器人在理想状态下,可以自己理解物理世界各种物体、语言和文字的含义,并自主规划和决策,即“具身智能”。

卡内基梅隆大学计算机科学院院长Martial Hebert曾总结日美两国在机器人上的差异性:日本擅长机器人的物理特性开发,美国擅长机器人的思维开发。

这句话隐含的意思是,美国的生产制造能力或许已经不是全球顶尖,但其计算机科学产业依然是世界一流。

2022年,备受期待的特斯拉机器人Optimus“真人”亮相,居然要依靠三名壮汉搀扶。两个月后ChatGPT横空出世,Tesla Bot成了一块无人问津的背景板。

但这种滑稽景象,也很容易掩盖特斯拉在软件层面的积累。

特斯拉Optimus分拣电池,搬运11公斤的电池托盘

早期的Optimus沿用了和特斯拉汽车完全相同的芯片与传感器,内部甚至运行着完全一样的自动驾驶算法。特斯拉前AI总监Andrej Karpathy曾回忆,当时机器人以为自己是一辆车,识别的是可驾驶空间,实际上是行走范围[1]。

但得益于在自动驾驶领域的经验总结,Tesla Bot在短短几年内就从真人Cosplay进化到了进厂打工。特斯拉还专门打造了超算中心Dojo,用来训练自动驾驶和具身智能算法。

2022年,三名壮汉搀扶特斯拉Optimus机器人登台

优必选的Walker S1批量下工厂,背后也是中国制造业与计算机科学产业经历多年积累溢出效应的一种体现。行业普遍认为,当前人形机器人较为接近自动驾驶的L2阶段,还需要在真实的场景中,不断学中干干中学。

比起科幻级别的技术演示或是前后空翻的宣传视频,能在工业场景中得到广泛的应用,恐怕是校准一家人形机器人公司的核心参照系。

一项技术的价值高低,在学术界与产业界很可能会得到截然不同的回答。

原因在于,学术界审视技术价值的标尺是未来的科研趋势,但产业界更关注的是与市场有关的产业化。如果一项技术无法被市场接受,那么学术层面再先进的技术,恐怕在复杂的市场中也不值一提。网红公司波士顿动力则是这种分化尺度的完美体现。

2016年,波士顿动力毫无征兆的发布了一则新款Atlas机器人的演示视频,视频中Atlas熟练的行走跳跃,尤其是被推倒在地后,仍能自主起身继续完成工作,整个过程栩栩如生,带给公众的震撼不亚于2022年底ChatGPT的问世。

这条视频的Youtube播放量累计超过4000万。2017年,Atlas再接再厉,用一个精彩的后空翻再度把波士顿动力送上全球热搜。

但也就是在2017年,投资方谷歌却选择在波士顿动力风头正盛时将其甩卖。按照彭博的说法,谷歌管理层的核心分歧在于商业化。

波士顿动力Atlas表演后空翻,2017年

谷歌对机器人的布局可以追溯到2013年代号为“Replicant(复制人)”的项目,这个项目由“安卓之父”安迪·鲁宾亲自带队,核心目标是打造一个编程平台,从而推动机器人普及,最终在机器人身上复刻安卓系统的成功[4]。

为了这个庞大计划,谷歌疯狂扫货,一口气收购了九家机器人初创公司,Atlas问世不到半年,波士顿动力就被谷歌收入囊中。

有了谷歌坐镇,波士顿动力的技术水平与日俱增,但反面则是孱弱的商业化能力。由于缺少应用场景,波士顿动力只能靠少量军方和政府部门订单维持生活,逐渐耗尽了谷歌的耐心[4]:“我们不可能用30%的资源去投入一个需要10年以上的项目。”

波士顿动力的蹉跎半生在诸多产业都能找到相似的影子,其原因也大多趋同:一项技术的商业价值,取决于它被应用在哪里。

晶体管技术在美国诞生,同样长期栖身政府采购市场,反倒是索尼的TR-55收音机瞄准更大的消费市场,使得晶体管大放异彩。

特斯拉早期使用的18650电芯与笔记本电脑的锂电池技术同源,但在不同的终端设备上,锂电池的有着天差地别的市场定位。

无人机是一个最典型的例子,以2013年为分水岭,在这之前,无人机几乎隔绝在普通消费品市场门外,在这之后大疆发布航拍一体机,将无人机和摄影功能牢牢捆绑,当年贡献营收近1亿美元,无人机也由此走进大众视野。

大疆的成功之处在于,将无人机与影像这个具体应用场景绑定,放大了无人机作为一项技术的商业价值。前红杉资本董事长迈克尔·莫里茨对大疆的评价是:它就是在天上飞行的Apple II。

衡量技术进步性的恐怕是专业期刊,但只有真实的应用场景,才能为一项技术公允的定价。

同样的道理,如果人形机器人只是旋转跳跃后空翻,那无论它的动作有多优雅自然,其对应的商业价值也许只能与工艺品等量齐观。从这个角度看,便不难理解为什么人形机器人但凡能干活总是想去汽车工厂打工。

优必选工业人形机器人Walker S1进行极氪汽车充电质检任务

一方面,人形机器人和自动化设备最明显的区别在于“通用性”:

举一个不太恰当但好理解的例子:送餐机器人执行“把外卖送到1203号房”这个任务时,并不理解什么是“外卖”和“1203号房”,只是根据软件系统既定的指令和路线规划完成任务,但人形机器人可以像人类外卖员一样,自行完成规划、决策和执行。

在具体工业场景,这种通用性会带来成本指数级的降低。而汽车生产,恰恰是一个既复杂又标准化的生产场景。

汽车生产可以简单划分为四大环节——冲压、焊装、涂装和总装。以自动化程度标杆特斯拉上海工厂为例,前三大工艺车间的自动化率达到95%,总装车间的工作最复杂,自动化程度最低,所需工人也就更多。

当喷涂好漆的白车身进入到总装车间,通常需要人工参与组装玻璃、轮胎、座椅等零部件。除了拧螺丝,还要对各部分进行质检。另外,总装流水线多是采用柔性化生产,对应按订单生产的多元化需求,双/三班生产屡见不鲜。

但同时,由于总装环节高度细分,大量装配环节经过深度拆解,又呈现标准化的特点。人形机器人可走可弯可动手,既能巡逻质检又能贴车标。在不重新设计产线的前提下,可以执行多种任务。

去年,优必选Walker S1还进入比亚迪工厂,与无人车协同作业,完成了从分拣、搬运到配送的室内外一体化的作业,让真无人物流照进现实。

考虑到汽车工业极强的规模效应,不光是机器人需要在整车工厂练手,整车厂对机器人的需求也与日俱增。

当一个又一个人形机器人走向汽车生产线,一场软件对硬件的全面改造再次上演。

真正的赛点

特斯拉机器人最初在2021年的AI Day亮相,但以PPT画饼形势呈现。也许是担心在场观众干看PPT无聊,马斯克请来了一位身着紧身衣的皮套人,模仿Tesla Bot尬舞了一段。

2021年,在AI Day上模仿机器人的皮套人

皮套人的亮相引来了一连串冷嘲热讽,其中就包括波士顿动力。在后者展示新款机器人的视频中,机器人以一种灵活到有些诡异的方式从地上站起来,波士顿动力则在配文中阴阳怪气:“我们保证这不是一个穿着紧身衣的人。”

然而,波士顿动力的第一代Atlas却在去年4月正式退休,特斯拉画饼多年的Optimus反而让产业界魂牵梦萦。

原因在于,在真实的工业场景中,机器人不仅需要学会怎么“运动”,更需要学会如何“思考”。

前面提到的优必选Walker S1在极氪工厂里的协同作业案例,体现了这一点。在这个案例中,多台人形机器人在总装车间、SPS仪表区、质检区和车门装配区等工位,开展分拣、搬运和装配等多项任务协同作业。

这里的重点在于协同。从单机智能到多机协同,背后是一项名为“群体智能”的技术。

所谓“群体智能”,核心是通过软件算法的应用,解决机器人之间的协同问题,实现1个中央总指挥官统筹管理N个人形机器人。

汽车生产环节众多,一个环节出问题,很容易影响整个生产流程的效率。人形机器人进厂打工,动作的精确、决策的自主只是新手村技能点,多的是意想不到的难题,比如如何实现对机器人的灵活调度,从而优化生产效率。

优必选工业人形机器人Walker S1在极氪5G智慧工厂执行柔软物体灵巧操作任务

为此,优必选提出了人形机器人群脑网络(BrainNet)软件架构,并设计人形智能网联中枢( Internet of Humanoids ,IoH),为群体智能的落地提供了可借鉴的路径。

简单理解,每台人形机器人都基于群脑网络这个大脑做任务,智能网联中枢相当于中央大脑,可以调用API让人形机器人执行不同的任务。同时,群脑网络由云端协同的推理型节点和技能型节点灵活链接,形成群体维度下的超级大脑和智能小脑。

其中,超级大脑基于多模态推理大模型,这一推理大模型基于DeepSeek-R1深度推理技术,借助其数据处理和智能决策能力,实现多台人形机器人之间复杂任务的高效拆解、调度与协同。相比OpenAI o1,DeepSeek-R1的优势在于成本更低且推理效率更高。

智能小脑则基于Transformer模型,利用跨场景融合感知技术和多机协同控制技术,支持多机并行分布式学习,能够加速技能生成与迁移。

去年底,优必选的Walker S1进入极氪智慧工厂开启第二阶段实训,搬运速度提升约25%,还完成了质量检查等新任务。

优必选工业人形机器人Walker S1正在进行分拣工作

在优必选的诸多产业实践中,群体智能扮演的角色,是如何通过软件算法,让智能化能力贯穿成规模的人形机器人,提高工业生产的效率。Marc Andreessen在2011年预言的“软件吞噬一切”,含金量还在提高。

如前文所述,人形机器人是计算机科学和精密制造这两门产业的结合的产物,衡量机器人企业竞争力的标尺,也许是在真实场景中体现的软硬件结合的能力。

“软件定义硬件”对科技行业的渗透几乎无孔不入,从功能机到智能手机,从燃油车到智能电动车,硬件的附加值逐渐被软件夺权,产品的差异化优势也在不断向软件倾斜。

一个不争的事实是,在硬件主导的时代,制造能力常被视为壁垒,进入软硬件逐渐融合的时代,合纵连横的生态成为了更高的壁垒。因为生产制造的价值总会被规模摊薄,而软件的附加值却有近乎无限的延展空间。

人形机器人依然是一个技术高速迭代、产业化方兴未艾的领域,但决定它未来的,既不是短视频里的杂技动作,也不是PPT上五花八门的指标,而是一条又一条生产线上,无数工程与算法组成的进步。

全文完,感谢您的耐心阅读。

[1]With Andrej Karpathy from OpenAI and Tesla,No Priors

[2] 野心与溃退:日本半导体输在了哪里,远川研究所

[3]硅谷钢铁侠:埃隆·马斯克的冒险人生,阿什利·万斯

[4]Google’s Andy Rubin Pursues ‘Replicant’ Robots,The Information

[5]Flipping the Script with Atlas,Boston Dynamics

来源:饭统戴老板一点号

相关推荐