黄剑博颠覆认知 | 人工智能教母

B站影视 2024-09-11 06:46 1

摘要:她为了让计算机准确识图,从网上下载近10亿张图片通过筛选、整理、打标签,成功建立了1500万张的图片库,这个工作量相当于一个人不吃不喝不睡,连续工作20年。

黄剑博颠覆认知 | 人工智能教母:空间智能颠覆AI ChatGPT.

华人AI女神:从洗碗工到谷歌首席科学家,她是如何逆袭的?

虎落平川被狗欺:当牛人落魄时,不要低估他。

李飞飞在美国读书时,经常到中国餐馆洗盘子、当清洁工,打工补贴家用。距离申大学仅剩两年的时间,她一边打工、一边上课、一边学习英语,一天只能睡四个小时。

她为了让计算机准确识图,从网上下载近10亿张图片通过筛选、整理、打标签,成功建立了1500万张的图片库,这个工作量相当于一个人不吃不喝不睡,连续工作20年。

如果要让机器人倒茶,那么机器人首先需要抓住茶壶手柄并使之保持直立,不泼洒出茶水,然后平稳移动,一直到让壶口与杯口对齐,之后以一定角度倾斜茶壶。这里,约束条件不仅包含中间目标(如对齐壶口与杯口),还包括过渡状态(如保持茶壶直立);它们共同决定了机器人相对于环境的动作的空间、时间和其它组合要求。

当你醒来能睁眼看世界时,你的这个能力实际上进化了几亿年。

曾经有一个时代,“看见”这个概念本身并不存在,直到三叶虫的出现,它们是第一批能够感知光线的生物,标志着一个全新世界的开始。它们首次意识到,除了自己,还有更广阔的世界存在。

这种视觉能力可能催生了寒武纪大爆发,让大量动物物种开始在化石记录中留下痕迹。从被动地感受光线,到主动地用视觉去理解世界,生物的神经系统开始进化,视觉转化为洞察力,进而引导行动,最终产生了智能。拍照和真正地「看」并理解是两回事。今天,我想补充一点。仅仅看见是不够的。真正的「看」是为了行动和学习。当在三维空间和时间中采取行动时,我们将通过观察来学习如何做得更好。自然界通过「空间智能」创造了一个良性循环,将视觉和行动联系起来。

最近,知名人工智能科学家李飞飞团队发布了“空间智能”研究方向的最新突破,提出了关系关键点约束,ReKep是一种基于视觉的表示方法,用于设定机器人操作中的约束条件,从而优化其动作。它通过将环境中的三维关键点映射到数值成本来定义这些约束,这些关键点具有任务语义和空间意义。

简单而言,该研究就将任务表示为一个关系关键点约束序列,同时现有环境则表示为空间域和时间域上的约束,从而优化机器人的操作,并进行复杂且精细的交互操作。例如,在机器人倒茶的场景中,约束条件不仅包含中间目标(如对齐壶口与杯口),还包括过渡状态(如保持茶壶直立),共同决定了机器人相对于环境的动作的空间、时间和其它组合要求。此外,该研究中,两只机器人手臂还能合作完成诸如叠衣服、打包鞋子等操作。

值得注意的是,该研究中还使用了大模型,李飞飞团队结合了视觉模型和视觉语言模型,设计了一套流程来实现关键点提议和ReKep生成。这些模型中就包括GPT-4o(OpenAI为聊天机器人ChatGPT发布的语言模型)。为此,李飞飞表示,该项目展示了视觉与机器人学习的更深层次融合。

研究过程中,该团队在两种不同的机器人平台上搭建了系统,并进行了多种任务的实验,包括单臂和双臂机器人的多阶段、双手协作积极反应性的操作任务。实验结果表明,该系统在没有任务特点数据或环境模型的情况下,能够有效地形成准确的约束。同时,研究还讨论了ReKept在泛化操作策略、系统错误分解和实验结果方向的挑战和局限性。李飞飞是人工智能领域最重要的科学家之一,是现代人工智能的关键催化剂ImageNet数据集的创建者,推动了计算机视觉和深度学习的发展。

同时,李飞飞也是一名创业者,今年4月她创立了一家人工智能初创公司World Labs (世界实验室),专注于开发能够执行高级推理并理解对象之间3D空间关系的“空间智能系统”。此后,仅4个月该公司就获得了1亿美元的融资,跻身独角兽行列。

#黃劍博采風追影 #JumboHuang #皇氏古建築大全 Jumbo Heritage List

来源:黃劍博采風追影

相关推荐