唯一入选论文、获赛事冠军…交大在国际顶会上的“制胜秘诀”是?
近日,国际计算机视觉与模式识别会议CVPR 2025召开。西安交通大学电子与信息学部计算机科学与技术学院、陕西省大数据知识工程实验室曹相湧副教授团队取得多项重要突破。
近日,国际计算机视觉与模式识别会议CVPR 2025召开。西安交通大学电子与信息学部计算机科学与技术学院、陕西省大数据知识工程实验室曹相湧副教授团队取得多项重要突破。
本文介绍工作由中国人民大学高瓴人工智能学院宋睿华团队、李崇轩、许洪腾与值得买科技 AI 团队共同完成。第一作者王希华是人大高瓴博士生(导师:宋睿华),他的研究兴趣主要在多模态生成,之前提出利用音频布局(audio layout)为视频生成同步声音的TiVA模型
这份统计是基于全球 4 万多名作者 13008 份投稿结果产生的。相比往年,今年的投稿数量增长了 13%,最终有 2878 篇论文被接收,整体接收率为 22.1%。
前几天,谷歌在 I/O 2025 大会上正式发布了其最新一代 AI 视频生成模型 Veo 3,在生成高质量视频的同时首次实现了音画同步。对于 Veo 3 的震撼效果,有人高度评价称,「它会是不亚于 OpenAI Sora 的跨时代产品」,标志着 AI 视频进入
通过引入一个辅助的神经网络,只需一块6年前的2080Ti,就能做大模型数据蒸馏。与前SOTA相比,新方法的显存占用只有1/300,并且速度提升了20倍。
在计算机视觉领域,显著对象检测(SOD)任务已经取得了显著进展,旨在识别和分割图像中最视觉突出的对象。然而,一个更具挑战性的任务是显著对象排名检测(SRD),它不仅要求识别显著对象,还需要根据它们的显著程度进行排名。现有的SRD数据集大多基于鼠标轨迹数据构建,
接受率约0.7% (96/13008≈0.7%),并且是今年该会议96篇口头报告中唯一聚焦遥感图像处理领域的工作。
论文第一作者林宏彬来自香港中文大学(深圳)理工学院的Deep Bit 实验室、深圳市未来智联网络研究院,导师为李镇老师。目前实验室的研究方向包括:自动驾驶、医学成像和分子理解的多模态数据分析和生成等。
在沉浸式 XR 体验中,使用少量追踪点还原全身真实动作,是实现自然交互与高度沉浸感的关键能力之一。在游戏娱乐、虚拟社交和具身智能等领域,高精度的人体运动估计技术正成为支撑高质量交互体验的核心要素。然而,市面主流的HMD设备(如PICO、Quest)往往只提供头