爱丁堡联合开源跨视觉模态面向边缘设备的自适应大型视觉语言模型

摘要：以下内容来自小六的机器人AI学习圈（6年积累，全国最大的机器人SLAM交流社区，为SLAM行业从业者提供从入门、学习、交流、求职、线下链接、合作、咨询、答疑等一系列的服务）知识星球每日更新内容

以下内容来自小六的机器人AI学习圈（6年积累，全国最大的机器人SLAM交流社区，为SLAM行业从业者提供从入门、学习、交流、求职、线下链接、合作、咨询、答疑等一系列的服务）知识星球每日更新内容

【Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities】

文章链接：[2403.04908] Self-Adapting Large Visual-Language M...

项目主页：GitHub - ramdrop/edgevl: Offcial code for the ECCV...

视觉语言( Vision-Language，VL )模型的最新进展引起了人们对其在边缘设备上部署的兴趣，但在处理不同视觉模态、手动标注和计算约束方面仍然存在挑战。我们引入EdgeVL，这是一个新颖的框架，通过无缝集成双模态知识蒸馏和量化感知的对比学习来弥合这一差距。该方法能够适应大型VL模型，如CLIP，以便在资源有限的设备上有效地使用RGB和非RGB图像，而无需手动标注。Edge VL不仅将视觉语言对齐能力迁移到紧凑模型中，而且在量化后保持特征质量，显著提高了不同视觉模态的开放词汇分类性能。我们的工作代表了第一个将大型VL模型应用于边缘部署的系统性努力，在多个数据集上显示了高达15.4 %的精度提升，并且模型大小减少了高达93倍。

「小六的机器人AI圈」

为机器人AI行业从业者提供从入门、学习、交流、求职、线下链接、合作、创业、行业内幕、咨询、答疑等一系列的服务。快人一步，步步领先！已沉淀6年，星球内部资料包括秘制视频课程、独家大咖采访及经验、项目对接、星主独家思考、同城线下交流会、求职招聘&笔面试题、学习打卡挑战、小组学习、最新前沿论文分享等等.

联系客服领券加入，3天不满意全额退款~

三维空间扫描仪化身机器人感知定位利器！用于机器人自主定位导航、实景三维重建！扫描仪+机器人，实时定位建图超简单！隧道低纹理大摆锤，暴力SLAM！暴力升级！暗黑隧道极限测试SLAM！效果哇塞！3D高斯泼溅来实景重建公园！全面启动！全国线下试用报名！MetaCam EDU 产品功能及细节详细介绍MetaCam EDU 实机展示和操作基于MetaCam EDU的二次开发流程及说明SLAM挑战：上下天桥绕一圈、定位建图准确完美回环无漂移SLAM挑战：多楼层、720°旋转楼梯、狭窄玻璃白墙过道三维空间扫描仪，轻松重建小树林空间定位建图挑战：长走廊、白墙、玻璃、反光等，会成功吗三维空间扫描仪，轻松重建小树林如何高效率重建古建筑？SLAM挑战：有光无光切换，自由穿梭小黑屋！SLAM暴力测试：弱光暗光、长走廊、动态场景、天旋地转如何快速让机器人具备SLAM能力？扫描仪+转换底座应用介绍3天爆改机器狗

来源：计算机视觉life

标签：模型模态开源视觉爱丁堡

本文地址：http://news.43b.com.cn/a/1249671.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!