摘要:银河通用昨日(1月9日)宣布,联合北京智源人工智能研究院(BAAI)、北京大学和香港大学研究人员,发布首个全面泛化的端到端具身抓取基础大模型 GraspVLA。该模型将人工智能融入机器人等物理实体,赋予它们感知、学习和与环境动态交互的能力。
银河通用昨日(1月9日)宣布,联合北京智源人工智能研究院(BAAI)、北京大学和香港大学研究人员,发布首个全面泛化的端到端具身抓取基础大模型 GraspVLA。该模型将人工智能融入机器人等物理实体,赋予它们感知、学习和与环境动态交互的能力。
据介绍,GraspVLA 的训练包含预训练和后训练两部分。预训练完全基于合成大数据,训练数据达到了有史以来最大的数据体量——十亿帧「视觉-语言-动作」对,使模型掌握了泛化闭环抓取能力。预训练后,模型可以直接在未见过的、千变万化的真实场景和物体上进行零样本测试,满足大多数产品的需求。针对特别需求,后训练仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时形成符合产品需求的专业技能。
官方公布了 VLA 达到基础模型需满足的七大泛化“金标准”:光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。
风险警告:本文根据网络内容由AI生成,内容仅供参考,不应作为专业建议或决策依据。用户应自行判断和验证信息的准确性和可靠性,本站不承担可能产生的任何风险和责任。内容如有问题,可联系本站删除。
来源:小圆科技每日一讲
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!