【长期主义】第333期智能说:王兴兴专访,宇树早期创业故事

B站影视 韩国电影 2025-04-12 08:52 1

摘要:2024年4月,宇树科技创始人王兴兴接受钛媒体专访,王兴兴表示,人形机器人行业爆发的本质原因是,AI大模型出现,以前1~2年才能让人形机器人学会走路,现在利用AI算法训练,1个月实现;在我们有生之年内,人形机器人可以把所有行业重做一遍,从工业、服务业,到农业、

2024年4月,宇树科技创始人王兴兴接受钛媒体专访,王兴兴表示,人形机器人行业爆发的本质原因是,AI大模型出现,以前1~2年才能让人形机器人学会走路,现在利用AI算法训练,1个月实现;在我们有生之年内,人形机器人可以把所有行业重做一遍,从工业、服务业,到农业、制造业;更终极一点,政府完全可以让10万人形机器人造出一个城市;往小处发展,机器人可以像细胞一样大小,改造现在所有自然环境。

2025年3月22日,极客公园播客《开始连接 LinkStart》发布,2017年发现王兴兴与主导投资宇树科技的极客公园创始人、变量资本创始合伙人张鹏聊王兴兴背后故事与思考。从杭州一间堆满零件的车库到全球机器人领域技术先锋,宇树科技创始人王兴兴创业故事,是部技术突破与寂寞期的真实写照。

本期长期主义,选择王兴兴专访、张鹏对话纪要,钛媒体、极客公园发布,六合商业研选精校,分享给大家,Enjoy!

正文:

全文17,005字

预计阅读34分钟

对话王兴兴:有生之年,人形机器人将重塑所有行业

时间:2025年2月18日

字数:7,805

宇树科技创始人王兴兴表示,人形机器人行业爆发的本质原因是,AI大模型出现。以前1~2年才能让人形机器人学会走路,现在利用AI算法训练,1个月实现。

王兴兴本科毕业于浙江理工大学,考研时英语成绩太差,落榜浙江大学,调剂到上海大学。王兴兴曾表示高中3年,所有考试加起来,英语只及格3次。

王兴兴2013年~2015年读研时,在没有太多资源与资金情况下,一个人从头设计硬件、控制算法,搭配工业电机,做出机器狗XDog,拿到上海机器人设计大赛二等奖,在研究生毕业后,开始机器狗创业之路。

宇树科技,2016年成立,最开始开发四足机器狗,卖到全球,成为该领域产品出货量最高的公司之一。2023年,宇树科技可以涉足人形机器人,一举成为业界最受关注的人形机器人公司。2025年,宇树科技最新人形机器人产品,登上央视春晚舞台,受到更大范围关注。

对人形机器人未来发展,王兴兴表现出相当的乐观。他认为,2025年底前,全球至少有一家公司可以把比较通用的机器人大模型开发出来。这个基础大模型类似是完整的积木,大语言模型只是其中一块,其他组成部分,包括视觉感知、力觉感知、决策与交互等。

更长时间线上,王兴兴表示,在我们有生之年内,人形机器人可以把所有行业重做一遍,从工业、服务业,到农业、制造业。更终极一点,政府完全可以让10万人形机器人造出一个城市。往小处发展,机器人可以像细胞一样大小,改造现在所有自然环境。

完整对话内容

人形机器人拐点还未到来

钛媒体:前几天,波士顿动力刚宣布液压版本人形机器人将会退出舞台,今后会开发以电驱产品,怎么看这件事?

王兴兴:波士顿动力做机器人已经很多年,商业化也做了很多年。

对液压驱动,我差不多在2013年以前,就认为这个方案无法商业化。

原因很简单,它都是精密的机械零件,一旦涉及到精密机械零件,成本都会下不来,所有液压系统都会漏油。

你可以看到,液压系统连家用轿车都不怎么用,现在全被电驱代替。

波士顿动力如果要继续开发人形机器人,电驱动方案,肯定是正确路径。唯一意外的一点是,我在2018年左右,就以为波士顿动力已经开始开发电驱版本,后来发现他们一直没什么动静,我就把这件事给忘了。

钛媒体:相比液压,电驱动是不是更好适应AI大模型?

王兴兴:相对液压,电动可以说全是优点,没有缺点。至于电动是不是能更好适应AI,这件事不好评价。电动成本更低、运动灵活性更好、安全性更高、重量更轻。

钛媒体:波士顿动力换成电动后,加上他们之前训练数据,有没有可能让他在新竞争中相比同行,迭代速度更快?

王兴兴:我不好评价这件事,我们比较有信心,我们四足机器人做了很多年,这里大量算法与零部件,可以在人形机器人身上继续沿用。

美国大量AI人才,不在波士顿动力,在谷歌、英伟达、OpenAI。波士顿动力优势,可能在于硬件能力,传统人形机器人的控制能力。

钛媒体:AI大模型出现,算是人形机器人巨大拐点?

王兴兴:这个拐点,我觉得没到,它只是起始的方向。

大家可能有一个误区,认为ChatGPT这种大语言模型能直接给机器人用,实际目前用不了。

大语言模型本身不是给机器人用的东西,ChatGPT是基于文本逻辑,它的数据集训练方式全是基于文本数据训练,对机器人的环境感知目前效果都不太好,全球都不太好。

目前人形机器人行业,可以认为它用的是AI技术,跟大模型技术差别非常大。

钛媒体:目前有些公司已经对外表示,利用大模型可以识别不同种类盘子,让机器人识别、端起来。

王兴兴:那个不好深究,只是视频,没有像外界证实。他没有数据证明如果将盘子换成苹果、梨或者其他物品,机器人是不是依然能分辨。

我个人感觉,硅谷那边,没有任何明显技术突破,还是比较中规中矩。

钛媒体:AI大模型不是人形机器人发展的拐点,它的重要性没有那么大?

王兴兴:AI大模型对机器人不重要。它代表的底层技术方向,很重要。目前大模型主要是大语言模型,机器人大模型还没有人能搞出来。

钛媒体:2023年,这一波人形机器人创业潮,究竟是什么推动?

王兴兴:比较简单,特斯拉开始搞人形机器人。

马斯克之前在汽车、火箭领域,都搞得效果不错,把产业带得很大。

这次,马斯克涉足人形机器人领域后,政府、各类机构希望早点开始做,不是等马斯克搞出来后,大家再追。

ChatGPT大模型出来后,把整个AI想象空间打开了,把大家想象力、热情都点燃。

目前热度只是苗头,会越来越大。随着每年硬件与AI技术进步,整体行业对整个世界颠覆是非常强的。

很简单,没有大家想象得复杂

钛媒体:目前AI大模型只是个头,后面行业方向,或者大家努力方向在哪里?

王兴兴:很多,首先第一步是把AI改成机器人能用的,机器人视觉感知、理解、执行规划等各种操作。

我与大家都一样,也很兴奋。个人感觉行业会发展很快,包括机器人、大模型、AI在内各种事,我觉得到2025年底前,全球至少有一家公司,可以把比较通用机器人大模型搞出来。

我们希望是自己搞出来,按概率算,美国那边搞出来概率更大。

钛媒体:涉及到开源,还是不开源的问题。

王兴兴:我们搞出来,肯定不开源。

钛媒体:机器人大模型,跟机器狗,是否存在统一模型?

王兴兴:机器狗大多数都是通过强化学习来实现,技术比较成熟。

机器人大模型或者机器人世界模型,它是可以用到所有机器人上,未必是人形或者机器狗,具有泛用性。我一直觉得,机器人形态未必一定是人形,人形只是其中一种形态,我从来都不坚持一定是人形。

钛媒体:主流会认为人形更好,整个文明社会,都是依据人形构建出来的基本框架。

王兴兴:他们喜欢这么说,我从来不这么认为,你可以完全建造新的物理世界。

挖矿,干嘛要人形?造楼房,干嘛一定要人?人形肯定是重要部分,或者说相对比较重要的部分,它不是全部。

比如要在家里用,可能人形,大家比较喜欢,给你表演剧情、陪你旅行。让他造房子、运东西,体力活,没有必要一定是人形。

人形,大家还会觉得有点奴隶制感觉,让他干点不太好的活,人看着心里不舒服。

钛媒体:你会感到心疼?

王兴兴:目前的AI,还没有达到这种级别,它没办法感知这种事。

如果它的AI,已经能感知一些疼痛,感知一些不好的情绪,可能不太好。目前没必要心疼,目前它智能程度是有限的。

钛媒体:有一点比较好奇,目前智能程度有限,你推他,他为什么会表现出人类踉跄的姿态?

王兴兴:这是AI训练出来的,强化学习。

钛媒体:是模仿人类行为?

王兴兴:有些不是模仿,自然规律决定。

你可以认为物理规律,限制机器人大概形态是这样,如果有一个外星人跟人长得差不多,他的行为举止跟人也差不多。

钛媒体:现在机器人,大家会把它拆解成大脑、小脑、本体,你怎么看?

王兴兴:我一直不太喜欢把大脑、小脑分的清楚。一个模型就够了,干嘛要分两个,我觉得这是没有太大必要的事。

模型里可能有各种模组,总体我喜欢把它当做一个模型做。

我们现在从行走,到精细化操作,全是AI实现,完全端到端方式。

从视觉感知,到腿部执行,一个模型搞定,没有任何中间数学公式,没有。

钛媒体:硬件能力跟得上?

王兴兴:机器人,就几个关节,没有什么难度,就是传感器,输到模型里,模型输入到关节,没了。

钛媒体:你对人形机器人的理解,好像比其他人看得更简单。

王兴兴:很简单,没有那么复杂。

钛媒体:比如,其他人可能认为灵巧手这一块,在精细化操作过程中,他们会认为很难,需要更准确识别,与更精细运动控制。

王兴兴:你如果用传统技术,确实很难,你不能用传统技术,如果你的技术没有创新,在这个没有意义。你不能直接这么表达,还是不要超越大众太多认知,不然我估计会被人骂死。

钛媒体:非传统具体是指什么?

王兴兴:新AI,端到端。中间不需要人为写太多软件编程规则,不需要做一些传统图像识别。

钛媒体:怎么实现?

王兴兴:改模型,底层AI是一样的,整个模型机构、算法都不一样。这个可能不太能说得太细,说得太细不好理解。

比如压根不需要传统图像标注、图像理解,可以把图像与视频输到一个模型里,输出是机器人关节轨迹,然后直接训练。

图像标注可以标注,比如标注苹果图像。标注功能只有一个,是跟人交互,让它能更好理解人。对机器人来说,苹果与梨,没有任何区别。

钛媒体:相比于主流,你的逻辑与行业判断,都挺特别的。

王兴兴:主流还是有很多问题。

我们创业公司,如果思想只是主流,完全不够。必须要看到未来几年发展方向,看到后,提前做布局,那肯定必胜,反正至少不会输。

如果只是看到大家都在说的东西,别人可以比你做得好,你怎么能跑出来?

钛媒体:在你看来,未来几年,是什么样?

王兴兴:不能说太细,可以确定是行业进步速度会非常快。

钛媒体:怎么个快法?

王兴兴:你可能想象不到,目前有些AI到工厂节奏,全球目前技术进度非常非常快,已经快跑通了。

钛媒体:目前还没有哪一家,可以完全利用机器人干活。

王兴兴:整个逻辑已经快跑通了,这个倒不是说机器人什么活都能干,而是能干活的、端到端机器人,已经快成熟了。更加通用一点的机器人模型,2025年底前,全球估计会有一家做出来。

钛媒体:这么快?

王兴兴:更快都有可能,目前有些人已经看到方向,有点吹牛,我也感觉自己看到方向。在这个方向下,想要再花些时间、人力、资金,能把它做出来。

所有技术突破,运气成分都是占很大部分

钛媒体:机器人模型,具体指什么?

王兴兴:可以认为,首先最简单直接的是运动能力很强,适用大部分地形,甚至可能有些运动能力比人还好很多。比如跃障能力、速度、跳的能力,比人可能还好一点。

一部分是到工厂里干活,可以干很多活,不需要人为编程。

通过大模型能力,只要稍微教他一下,他是可以自己学会,然后就干好。

钛媒体:还需要仿真环境的模拟训练吗?

王兴兴:可能不太需要。训练好,确认好,不太需要仿真。硬件完成可能需要时间,我觉得这仅是时间问题。

对AI,还是有点不确定。刚刚说我个人比较乐观,2025年底之前会出现,也有可能不是,可能3~5年都没有做出来。这得看全球人类运气,有时就得看运气。

钛媒体:怎么理解这种运气?

王兴兴:技术突破很多都是看运气。

举例,如果没有爱因斯坦,他的理论估计也会有人发现。可能晚几年,甚至晚几十年,所有技术突破,运气成分都占很大部分。

钛媒体:大模型突破,除了算法与模型,还有数据。现在数据收集,是不是存在很大难度?

王兴兴:需要做的事挺多,也是有方法,没有大家想的复杂,很多问题都没有大家想的复杂。

目前所有科技领域,如果真的去看,没有什么复杂东西,相对都是比较直接、简单。哪怕是光刻机,也就那么点东西。

钛媒体:你们这个行业,是不是也分成两派,乐观与悲观。比如你偏乐观,觉得整个事没有困难。

王兴兴:肯定需要时间与脑力投入,但这些是可以解决与推进的事,不是类似常温超导体、可控核聚变这样问题。

常温超导体、可控核聚变最大问题是什么,是它在物理原理上有没有可能是个问号。可能这个宇宙,不允许这种东西存在,人类花再多时间、精力,也不可能实现。

AI机器人这种东西,它是很常见的东西,不是什么高明的事,是一堆人、一堆动物的智能。智能,是很普遍的东西。有些动物很聪明,很多人的话都能听懂,只是他不能说话。还有乌鸦,有些乌鸦甚至是可以直接用工具。

智能这种东西,没有很多限制性,没有什么物理约束,是可以复现。

钛媒体:推动你做这件事的最大动力是什么?

王兴兴:推动我个人最大原因是AI。

早些年有投资人问我,你们公司做不做人形机器人,我跟他说,我们死也不会做。

原来人形机器人太复杂,用传统算法根本没办法驾驭这种复杂机器。

传统人形机器人的训练算法,相当于是靠一些聪明人类大脑写一些数学方程式,然后求解这个方程,制定机器人运动轨迹。这些方程式有很大局限性,一旦环境出现变化,可能就没法用,需要重新设计新的方程式。

这样的训练方式,会导致代码量非常大,当系统复杂到一定程度,单纯靠人力,是无法维护这个系统。

对AI,只要模型搭建得足够好,不断给AI投喂数据与算力,AI可以不断试错。利用强化学习算法中奖励机制,AI能自动把好的训练结果留下来,坏的扔掉,训练效率得到质的提升。

目前AI技术进步,包括AI能力,是远超我个人预期。可以看到我们人形机器人,之前差不多只做了1年多时间,现在性能已经非常非常好。我们做这么快原因很简单,是AI技术进步。

AI好处是,只要模型搭建得很好,剩下问题,丢给算力就可以。觉得要测试的场景,再给他推点数据,你也不用管。

可以看到,类似特斯拉自动驾驶团队的人,比国内自动驾驶团队少很多少,非常多。

我知道他们大概只有几百人,中国很多团队,一个公司可能有几千人。

钛媒体:这也是后来者,能超越波士顿动力的原因。

王兴兴:对,比传统算法,我们跟波士顿动力完全比不了。原因很简单,波士顿动力有一堆MIT博士,中国肯定搞不过人家。

钛媒体:你觉得未来人形机器人,最重要的差异点在哪?

王兴兴:机器人是综合产品,不会像燃油汽车与新能源汽车这种偏差那么大,而是一些小的技术方案差别。

比如这个电机用多大尺度、电机放在什么位置、工作空间多大、外观大概怎么设计、腿的形状怎么样等,这些领域差别。

包括AI也一样,比如大语言模型,大家差不多。

目前偏差,最主要是各种细节上偏差,GPT整个架构还是比较干净。

有生之年,人形机器人可以实现所有行业与自然环境重塑

钛媒体:商业化比较重要,创业公司怎么在越来越激烈竞争中活下去?

王兴兴:商业逻辑非常简单,只要产品各方面比同行都好,肯定能赚资金,剩下问题是这个行业本身有多大。

现在我们公司在这个行业内,相对底子比较厚,行业内相对比较好赚的,还是被我们赚了。

钛媒体:什么是好赚的资金?

王兴兴:出货量比较多,四足机器人与人形机器人,我们2024年人形机型卖了不少。

钛媒体:卖了多少?

王兴兴:这个不太好说,不到数百,在国内肯定是卖的最多。

钛媒体:都卖给谁?

王兴兴:各种各样都有,科研机构、AI公司,一些项目方落地都有一些。

钛媒体:为什么你们可以这么快,甚至可以卖货?

王兴兴:我们底子厚,机械狗与机器人很像。

我们在这个行业里,无论是技术研发能力、AI算法、生产制造能力、销售渠道,都相对有优势,客户都是现成的,东西也都是现成的。

别的公司,这些所有东西,都要重新再做一遍,需要时间积累。

钛媒体:这些收入,足够支撑研发吗?

王兴兴:公司综合毛利不错,加上我们有一些融资。

钛媒体:对人形机器人的创业公司,融资能力会是一个核心能力吗?

王兴兴:现在我不太好评价这个行业,太热了。很多有点底子的公司,都拿到不少资金,这些资金至少能让它们维持生存,大家资金肯定是够用的。

我们开始时很穷,跟我们当年比起来,现在完全是两码事。现在一些公司刚成立1年,就拿到10亿估值,非常离谱。行业不缺资金,他们不缺资金。

我觉得在行业还没真正爆发时,资金太多没啥用,花不到刀口上,要是硬花,说不定就浪费了。现在技术与商业模式都还没完全跑通,这时乱投资金,不明智。

共享单车能做起来,是商业模式行得通。既然模式跑通,接下来就得拼规模,只能砸资金,不然没什么别的事干。

钛媒体:没有完全跑通意思是?

王兴兴:是技术方向与商业化没有跑通,有资金,花不到地方去,也不知道花哪。

钛媒体:技术方向困扰,在哪些方面?

王兴兴:人形机器人,应该与AI模型怎样搭配,这些不知道。

钛媒体:现在人形机器人创业者都很年轻,王兴兴本人作为90后一代,这是为什么?

王兴兴:原因很简单,老人对这个东西不感兴趣。

最近AI技术,都是近几年全新的,老的知识都没啥用,基本5年以前的AI技术,都不用看,新的肯定是年轻人学的最多、最快。

传统互联网创业,门槛很低,人人都可以当产品经理,人形机器人本身不是传统行业。

钛媒体:你刚提到说,有没有一个天才的想法会出现,指的是人形机器人应该与AI模型间的搭配问题?

王兴兴:对,差不多。

钛媒体:AI模型不是基础的积木拼接吗?

王兴兴:这些背后差别蛮大的。

模型从底层开始,能改的地方太多了。

比如Transformer,这都能改,现在好多人都在研究怎么改它,甚至有人想不用Transformer架构,找全新的替代。

AI领域,能动手改动的地方太多了,到处都是可以探索创新的点。

我预计,通用人形机器人,在2025年会有较好的模型出现。如果到时有人做出通用模型,这个行业热度会更高,甚至全世界的公司,都会一股脑往这个行业涌。

钛媒体:到时,你认为是软件先达成,还是硬件先达成?

王兴兴:主要得靠软件,光硬件达成没用。

就算把硬件做得再好,要是没有软件支持,也白搭,是一堆没用的废铁。

钛媒体:以现在研发速度,只要软件出来,硬件可以跟上?

王兴兴:硬件肯定没问题,如果现在真的需要,我们可能巨量砸资金。2~3个月到1年时间,绝对能搞定。多加点班,工资翻10倍,设备都买一堆,把资金成本一股脑全投进去,肯定能行。

钛媒体:中国与国外硬件能力,这一块有差距吗?

王兴兴:中国做硬件更有优势,性价比更高。

钛媒体:为什么是这种情况?

王兴兴:首先,美国对做硬件,目前他们不太重视,聪明的人全做软件去了。其次,他们生产制造成本、工人,都比中国贵。

请务必阅读免责声明与风险提示

来源:六合商业研选一点号

相关推荐