1. Dita:视觉-语言-动作模型的新玩法 Dita是个超级棒的框架!它让视觉、语言和动作模型更强大,尤其适合各种机器人数据集。不同于老旧方式,它用Transformer架构,让去噪动作精准符合视觉标记,适应各种复杂任务和差异。 2. LEGO-Puzzles:挑战MLLMs的空间推理能力 LEGO-Puzzles是一个测试多模态大语言模型空间推理的工具集,针对机器人、导航等实际场景。它包含1,100个视觉问答样本,帮助了解MLLMs在复杂空间任务中的表现。 3. 无条件先验的重要性:优化微调扩散模型生成效果 研究发现,无条件噪声对于扩散模型的条件生成至关重要。借助基础模型的无条件噪声,条件生成效果得以大幅提升,适用于多个扩散模型,提升生成质量。 4. Wan:开放视频生成的新标杆 Wan是一个专注于视频生成能力提升的工具包。它包含创新的VAE和扩展预训练策略,大幅提升视频生成性能。拥有两个不同参数模型,适应多种任务,同时全开源促进行业发展。 5. 开放深度搜索:开源推理代理的探索 ️♂️ODS旨在缩小专有解决方案与开源搜索的差距。它利用开放搜索工具和推理代理优化搜索能力,比现有技术效果更佳,大幅提升了语言模型的搜索效率。 6. GenHancer:生成模型的隐藏视觉加强秘密 GenHancer用生成模型提升视觉表现。通过条件机制和去噪策略,它有效增强了图像和语言的交互。提升后的CLIP在视觉任务中表现出色。 7. MCTS-RAG:让小语言模型推理更强大 MCTS-RAG结合检索增强生成和蒙特卡罗树搜索,优化小语言模型的推理和决策过程。它让小模型在推理任务上媲美大语言模型,成为推理新标准。 8. BizGen:信息图视觉文本的绝佳助力 BizGen在超密布局中生成高质量商业内容,如信息图。通过逐层检索和新布局方式,它在复杂内容生成上表现出色,比以往方法更胜一筹。 9. Qwen2.5-Omni:多模态模型的全新表现 Qwen2.5-Omni支撑端到端多模态生成,支持文本、音频等多种输入。其创新的同步和编码技术,让其在流式生成表现出色,在多模态任务中领先。 10. AccVideo:视频生成模型的提速神器 ⚡️AccVideo通过合成数据集优化推理过程,大幅加速视频生成。它提高了视频质量和分辨率,同时较传统方法快速多倍,是视频生成领域的绝佳工具。 #AI便利店@科技薯 #Huggingface#ai#ai论文#大模型摘要:Dita:视觉-语言-动作模型的新玩法 Dita是个超级棒的框架!它让视觉、语言和动作模型更强大,尤其适合各种机器人数据集。不同于老旧方式,它用Transformer架构,让去噪动作精准符合视觉标记,适应各种复杂任务和差异。 2. LEGO-Puzzles:
来源:小李的科学讲堂