"出现在计算机屏幕上。这个被称为"命令提示符"的符号,成为了人类与计算机对话的开"/>

西部世界前传:一个关于机器人自我建模的实验 | The prompt

B站影视 欧美电影 2025-06-27 14:55 1

摘要:1966年,一个简单的符号">"出现在计算机屏幕上。这个被称为"命令提示符"的符号,成为了人类与计算机对话的开端。半个世纪后,当研究人员发现通过精心设计的提示词能够指引AI完成各种任务时,"prompt"成为了人工智能时代最重要的术语之一。

1966年,一个简单的符号">"出现在计算机屏幕上。这个被称为"命令提示符"的符号,成为了人类与计算机对话的开端。半个世纪后,当研究人员发现通过精心设计的提示词能够指引AI完成各种任务时,"prompt"成为了人工智能时代最重要的术语之一。

现在,当我们与AI对话,说出的每一句话都是一个prompt。无论是让AI生成一幅画作,写一段代码,还是完成一篇文章,都需要通过prompt来表达我们的想法。这种人类与AI的对话方式,正在悄然改变我们的工作与生活。

这也是《The Prompt》这个栏目的由来。在这里,我们将与AI领域的创业者对话,发掘具有创新力的AI产品,记录技术变革带来的惊喜时刻。我们希望内容本身,也能成为一个prompt,为读者打开思考的空间,在技术浪潮中,找到观察和理解AI的支点。

文丨黄依婷

编辑丨赵磊

在哥伦比亚大学的一间实验室里,一台机器人正对着镜子练习表情:皱眉、微笑、歪头。摄像头是它的眼睛,神经网络构筑它的控制中枢。没有人告诉它什么叫“悲伤”,也没有人为它设计“悲伤”应该是皱眉还是闭眼。它只是在无声的自我凝视中,把表情和电机指令关联起来,学会像人一样做出表情。

这是一场人形机器人自监督学习表情的实验。主持这场实验的是胡宇航。他今年28岁,刚从哥伦比亚大学博士毕业,一年多前创立了首形科技,专注于做“人脸机器人”。这个方向几乎无人涉足。过去一年,胡宇航见了100多个投资人,多数听了他的构想,摇摇头就走了。

他的构想是反共识的。“我觉得人形机器人更适合做情绪化产品,至少在未来5年内,它不是一个能够创造高效生产力的产品。人形机器人是服务型需求,不是工业集群或者生产力的需求。”

作为F(Feeling导向)人,他认可情绪陪伴的价值,会用“物化”去形容把机器人当作工具的行为。在他的规划里,将来能造一个沉浸式的《西部世界》,NPC全部都是机器人。

这是一些听起来抽象又理想化的描述,但胡宇航强调说,自己不是一个理想主义者,他坚定地相信人脸机器人能够商业化。

在胡宇航看来,在大模型全面推动语言交互跃升的时代,真正决定机器人是否能被广泛接纳的,并不是“会说话”,而是“会共情”。他认为,相比于语音助手或纯数字界面,一个具备真实面部表情、能读懂并回应人类情绪的类人机器人,天然具备情绪连接与场景沉浸的优势。这种“类人共情价值”(Humanoid Empathy Value)正在成为机器人商业化的一个突破口。

因此,首形科技选择了一条更具现实落地性的路径:优先完成交互类场景中的商业闭环,即通过打造具备自然表情、实时反应和主动交互能力的类人机器人,在情绪价值密度高的空间——如线下体验馆、品牌展厅、主题乐园、IP互动空间等——快速构建人与机器之间的情感关系与价值感知。今年年底往后,他们会从内部员工开始做测试,他们将是首形科技的第一批用户。

期待这些产品的受众不少。2022年开始,为了给两点一线的留学生活留下一点痕迹,胡宇航以“U航”为名在社交平台发布Vlog,最开始主要拍每天吃什么,后来有了一些科研相关内容。今年5月,胡宇航上传了几条新一代产品的Demo视频,后台播放量上亿,收获了一批“电子股东”。这让他感到很意外,也更加坚定了做人脸机器人的想法。

继去年11月完成天使轮融资,首形科技在近日完成了新一轮融资,目前不到20人的团队将在年底扩充到四五十人。他们现在会给一些人形机器人厂商提供零部件和技术支持,但更多的精力在技术和产品研发上。

● 胡宇航和首形科技新一代机器人对视。图源:受访者提供

以下是镜相工作室与胡宇航的对话:

跨过恐怖谷效应

镜相工作室:5月中旬的时候,你在自媒体账号发了新一代产品的Demo视频,人脸已经精细到毛孔了,是有血色的。

胡宇航:对,那个脸的外观是我雕的。我个人的感受是,当我真的跟她对视的时候,她给我传达表情,我真的会有一些错觉和震撼,甚至有一种她受伤我会心疼的感觉。我希望把这个东西尽快呈现出来给大家看,让大家感受我感受到的,相信我相信的。

镜相工作室:网友的关注和讨论里,有没有一些让你印象比较深刻的?

胡宇航:还挺出乎我意料的是,其实大家并没有多么排斥机器人有“脸”这件事,反而是之前会有投资人说这会不会有恐怖谷效应。但真正看到的用户反馈是,他们还挺想要一个桌面级的陪伴机器人,或者是一个有“脸”的机器人。当然这里面也有幸存者偏差,可能不喜欢的人就直接把视频划走了。

镜相工作室:投资人提到的恐怖谷效应应当是你们要解决的一个关键问题。

胡宇航:我们已经深度剖析了这件事。我认为它分为静态和动态下的恐怖谷效应。静态的恐怖谷应该是完全被解决了,像蜡像啊,雕塑啊,手办啊,没有人觉得恐怖,因为你做得很精细。现在是要用AI控制它动起来,让它动起来更自然、更逼真,这就是算法的问题。我们的算法有优势,我们就用算法来做这件事。

镜相工作室:算法优势具体指什么?

胡宇航:主要是两个模型,一个是怎么做表情,一个是做什么样的表情。

之前大家都是通过显式的方程去设计脸,或者是绑定人脸坐标系,把人脸上的landmarks映射到机器人上。有很成熟的人脸识别算法可以识别面部运动,然后直接映射成电机指令。但用这种方式做出来的表情会显得非常呆板、僵硬,容易出现恐怖谷效应。

我们现在希望训练出一个机器人自己的表情运动空间,也就是让它通过深度学习和神经网络来自主“理解”和“表达”表情。这种方式的好处是,整个模型是可微的,也就是说它可以被端到端训练,表情变化也更加平滑、连续。它能与大模型和多模态系统协同工作,为机器人实现更高级、更自然的情感交互打下基础。

镜相工作室:所以你们让机器人对着镜子自监督学习表情。

胡宇航:对,之前没有人这么干。这样的效果非常好,而且是直接采集到脸部的所有动作指令。

让机器人对着镜子学习

镜相工作室:机器人对着镜子自监督学习表情,具体是怎么去学习的?

胡宇航:机器人照镜子的时候,它眼睛里的摄像头可以看到镜子中的表情,它大概能知道在某个电机指令下它的表情是什么样子的。这个过程有点像我们对着镜子练习舞蹈一样。机器人照镜子,收集电机指令和对应的脸部表情,再把这两组数据交给AI模型去训练,AI模型就会知道,当我要做某个表情的时候,我的电机指令是多少。

● 机器人正对镜自监督学习表情。图源:受访者社交平台

镜相工作室:表情模型的自监督和语言模型的自监督,两者的区别是什么?

胡宇航:表情模型的自监督学习与语言模型的核心区别,在于它们依赖的模态和监督信号不同。语言模型是在语言内部做预测,例如BERT或GPT通过掩码预测或下一个词预测,从大量文本中学习词语间的上下文关系。而表情模型的自监督学习则是跨模态进行学习,主要利用人说话的视频,自动对齐语音信号与面部表情,学习它们之间的自然对应关系。

也就是说,表情模型的监督信号来自于语音和表情在时间上的共现,不是人为标签,而是自然同步。通过这种方式,模型能够理解语音、语义与表情之间的关联,从而在不同语境下生成自然、连续的面部表情。这种训练过程更像是“感知和表达”的建模,而不是简单的情绪分类。

镜相工作室:人的情绪是抽象的,哪怕是人与人之间交流,也能难去准确感知。机器人是怎么做到的?

胡宇航:传统的情绪识别方法往往依赖情绪分类标签,如喜、怒、哀、乐,但这类标签在现实中模糊而主观,难以覆盖情绪的复杂变化。相比之下,我们更倾向于将表情作为嵌入空间中的连续表示进行建模,而不是硬分类。

这种方式下,模型无需“理解”情绪的具体标签,而是在潜在空间中学会表达和生成表情,就像语言模型生成token一样,输出一个对语境和声音感知自然反应的表情表现。

就像我们不需要解释每一个语言embedding(向量表示)的含义,也无需向机器人解释每一个表情embedding的情绪意义。只要这些embedding能在语境中输出自然的表情表现,就完成了我们对“情绪”建模的目标。

镜相工作室:那机器人怎么样去输出人类可以理解的表情?

胡宇航:这时候你就需要有语境语义的绑定,跟对话内容中人的表情和声音信号去做对齐。我们日常中有海量的视频数据,大家在说话的时候,表情、眼神、声音和文字内容都是高度同步的,这些数据可以用来做模型的预训练,让模型了解到每个audio和表情之间的关系,或者是每个情绪化文本背后带有的表情内容。

“人形机器人适合做情绪化产品”

镜相工作室:为什么会想着聚焦情绪感知,做人脸机器人?

胡宇航:我有个反共识的观点,我觉得人形机器人更适合做情绪化产品,至少在未来5年内,它不是一个能够创造高效生产力的产品。最合适的、商业闭环能跑通的是交互场景,提供情绪价值、服务价值的场景。或者说,我觉得人形机器人是服务型需求,不是工业集群或者生产力的需求。

镜相工作室:这种商业化的路径选择在当下有点逆向而行的意思。

胡宇航:如果你定位这件事是对的,那它什么时候商业化,什么时候去做开源,什么时候去培育生态,这些事是要跟行业深度绑定的。今天工业领域的生产自动化已经非常内卷的情况下,你还要用人形机器人去打内卷需求,这个逻辑上就不对,你肯定要结合产业方去感受发展的节奏。

做人脸机器人这件事其实是我一个人决定的。大部分人,包括实验室里的师兄弟都会犹豫或者质疑这件事。有太多人来到我的实验室,看到我的工作,就会给我个大大的问号,说为啥要用脸,这太恐怖了,你在搞什么?甚至之前展会的时候,有一个外国的小孩哥过来说,你做这个东西就是为了恐吓小孩。人脸这个品类确实需要一个循序渐进的过程,慢慢地让大家觉得这个东西OK。话说回来,算法其实还是最重要的。

镜相工作室:什么样的经历促使你坚定地选择做人脸机器人,去提供情绪价值?

胡宇航:我自己做过各种各样的机器人,桌面级的双足机器人、四足机器人、机械臂等等,这些品类我基本都做过。今天大家在讨论,如何用AI大模型让机器人完成质的飞跃,提出simulation(仿真)。实际接触simulation的工作后,我发现simulation其实是一个很糟糕的东西,它和真实场景有一个比较大的gap,sim2real gap(仿真世界和真实物理世界的差异/从仿真到现实的迁移鸿沟)。你不能说,那行,我们做domain randomization(领域随机化,指在仿真训练中,刻意加入各种“不确定性”,让模型学会更有韧性地应对“看不见的现实世界”),把真实世界场景作为仿真世界场景的一个子集,然后指望我们的模型在现实中也能拥有很强的鲁棒性(指的是一个系统在面对干扰、变化或不确定性时,仍能稳定运行、保持性能的能力)并成功部署。

现实情况是,你需要一个非常大的训练数据量,并且即使如此,模型也很难完全覆盖现实世界的distribution(情况、状态、数据分布)。我觉得物理世界是一个混沌的世界,你要用物理仿真器完成这个子集的收纳是很困难的。而今天的人形机器人连一些基础任务都做不好,在这种情况下,你让他泛化没什么意义。

所以我觉得今天去做生产力的泛化,倒不如先做好交互类的商业化闭环。现在在交互上完成快速变现,跑通机器人控制和大模型之间的交互机制,然后再去慢慢迁移到其他的部分。所以我们选择从“头”做。

当然我自己是非常看好机器人的,只不过在这条路径上面,我们不希望盲目摸索,而是把它先简化到脸,从脸开始做,从交互开始做。

镜相工作室:在商业化落地方面有没有一些设想?

胡宇航:我们早期会做用户拆开就能够体验的消费级、桌面级产品,做体验馆,但大规模落地也是在两年后了。现在会给一些对人脸感兴趣的人形机器人厂商提供零部件和技术支持。

最终我们希望打造一个沉浸式的西部世界,里面的NPC都是机器人,我们认为这里面的技术栈还是比较容易解决的。因为西部世界是一个局部约束的场景。人类生活的场景是一个完全动态发展的场景,对模型的要求非常高,人形机器人要进家庭是非常难的事情;进工厂是很简单的事情,现在已经实现了。像西部世界这种区域场景,我们觉得是可以去提出解决方案的。

镜相工作室:你们的商业化路径和目标很清晰。一些机器人公司可能会更倾向于讲述技术突破方面的故事。

胡宇航:我觉得有时候你把一个问题讲得很高大上,或者讲得很抽象,过于让人难以理解的时候,你其实是有问题的。

● 美剧《西部世界》,讲述了类人机器人觉醒的故事。图源:剧照


卖给F人

镜相工作室:目标用户是一群什么样的人?

胡宇航:我觉得是能够理解情绪陪伴是生活中很重要的东西的人。我不会具体去讲是哪个领域的人。很多人无法理解情绪陪伴是个需求。我是个F人,我觉得情绪陪伴在整个人生中都是很重要的。你在人世间,你不是一台机器,你也不是工具,你是一个能够感受、理解人生百态,和人产生情感联结的体验者。所以我觉得我的目标用户就是我这种F人。

镜相工作室:这几年做AI情绪陪伴类产品的公司很多,软件硬件都有。你觉得这类产品之间的壁垒是什么?要怎么打出差异化?

胡宇航:真正让你和AI产生情感联结的点在于,你相信这不是机器。如果你早期带入的定位是,它是一个聊天工具的话,你很难跟它有长期的情感绑定。真正需要解决的问题是,让用户觉得这东西不是一个机器,能够有一种沉浸的体验感。这也是我们要做情绪理解和情绪表达的原因。

镜相工作室:目前业内在情绪感知上面大量投入的公司多吗?

胡宇航:挺少的。

镜相工作室:你是因为笃定情绪陪伴价值所以在这方面加大投入?

胡宇航:我觉得跟团队的小伙伴也有关系。如果身边都是一群直男,他们对可爱类的或者机甲类的最感兴趣,觉得这种能够让他们居高临下地对待。我觉得如果你居高临下地看待每个AI陪伴产品,你无法跟它建立信任或长期的情感联结,你会认为AI是你的玩物,是你的工具,那你物化了这个产品后,你对情绪的表达和理解在人性的这一侧就会缺失、会失真。我觉得我们这个品类是一个天花板很高也很难但是正确的一件事。

镜相工作室:你们是怎么去量化AI情感陪伴机器人的市场规模的?

胡宇航:我们没有单独去看这个市场的规模,行业内也没有一个准确的数字。像泡泡玛特这样的公司,可以看到它有一个静态的价值,如果你往更深的层次去看,它会有更高的市场空间。

● 胡宇航身后是他研发的三代机器人。图源:受访者社交平台


不是理想主义者

镜相工作室:现在团队有多少人?

胡宇航:15到20人。

镜相工作室:这么少的人要去完成一件少有人做过的事还是挺难的。

胡宇航:我们不怕事情难,我们是想做一些我们觉得有价值的事。我们会不断扩大团队。我们最新的杭州的算法团队也开始在招人,预计到年底团队规模扩大到四五十人。

镜相工作室:最近是不是有很多投资人找你?

胡宇航:在国内见了很多,一年下来大概见了有一百多个,但相信我们可以做商业化落地的还是不多。

镜相工作室:他们普遍的疑问是什么?

胡宇航:总觉得这东西没啥必要。他们还是以机器人是工具的角度来思考这件事的。他们会想知道你这个表情机器人接下来是不是一个什么工具,能够有刚需,我觉得这个事跟我们的初衷太不一致了。

镜相工作室:你觉得现在的投资人更多是对项目商业化的期待,还是对你的期待?

胡宇航:投人的比较多。机构可能觉得我一个人又做市场,又做科研,又做产品,同时又管理公司,还做自媒体,投人的逻辑在他们内部更好去推动。

镜相工作室:这好像是目前人形机器人行业一个普遍的投资逻辑。

胡宇航:因为今天没办法去量化这个事儿,尤其是技术导向的公司。大家都在说我要解决一个什么问题,但你真的开卖了吗?你的毛利率是多少?你的客户留存率是多少?没有一个量化指标的情况下,投资机构内部没办法去判断谁优谁劣,那我就先投人。

镜相工作室:现在普遍的认知是,人形机器人距离商业化还有一段时间。在当下的阶段,是不是需要一点儿理想主义去支撑做这些事?

胡宇航:情况有点复杂,什么样的人都有。但我不是一个理想主义者,我父母都是商人。如果我是理想主义者,我在学校干就完了,我就待在象牙塔里。我是觉得它是能够创造真实社会价值的。

镜相工作室:为了能够尽早实现商业化,你现在的工作节奏是什么样子的?

胡宇航:我每天睡7个小时,其他的时间都可以工作。

镜相工作室:目前在攻克一些什么难题?

胡宇航:人类情绪在不同人种的脸上表现出的形状还是不太一样,这是我们现在要去解决的问题。我们找到的切入点就是先只做亚洲市场。因为亚洲市场非常大,相对来说审美也比较趋同。

【版权声明】所有内容著作权归属镜相工作室,未经书面许可,不得转载、摘编或以其他形式使用,另有声明除外。

来源:镜相工作室

相关推荐