Open-Sora Plan技术报告发布,开源的大规模视频生成模型

B站影视 2024-12-05 14:34 1

摘要:今日精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上

想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?
别担心,AMiner AI会帮助你高效检索和阅读文献!

AMiner AI,一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中,让科研变得更加有趣和高效!

今日精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:「链接」

2024年12月5日精选新论文列表:

1.DeMo: Decoupled Momentum Optimization
这篇论文提出了一种名为DeMo(解耦动量优化)的新算法,通过解耦动量更新和允许优化器状态在加速器之间有控制地发散,可以在不牺牲性能的前提下显著减少训练大型神经网络时加速器之间的高速通信需求。该方法不依赖于特定的拓扑结构或架构,支持可扩展的时钟同步分布式训练,且计算和内存开销极小。实验结果显示,使用DeMo训练的模型性能与使用当前最先进的AdamW算法训练的模型相当或更优,且在预训练大规模基础模型时无需使用高速互联网络。论文作者还提供了一个开源的PyTorch实现,并已在GitHub上发布。

链接:DeMo: Decoupled Momentum Optimization - AMiner VIP

2.Open-Sora Plan: Open-Source Large Video Generation Model
这篇论文介绍了一个名为Open-Sora Plan的开源项目,该项目致力于贡献一款大型视频生成模型,可根据用户的各种输入生成期望的高分辨率、长时间的视频。该项目包括多个组件,涵盖了整个视频生成过程,如小波流变分自编码器、联合图像-视频跳跃解析去噪器和各种条件控制器等。此外,还设计了多种高效的训练和推理辅助策略,并提出了一个多维数据整理流程,以获取期望的高质量数据。得益于这些高效的设计思想,Open-Sora Plan在定性和定量评估中取得了令人印象深刻的视频生成效果。作者希望他们的精心设计和实践经验能激发视频生成研究社区的灵感。项目的所有代码和模型权重均已公开。

链接:Open-Sora Plan: Open-Source Large Video Generation Model - AMiner VIP

3.O1-Coder: an O1 Replication for Coding
该研究报告介绍了一种名为O1-CODER的模型,旨在复制OpenAI的o1模型,并专注于编码任务。该模型融合了强化学习(RL)和蒙特卡洛树搜索(MCTS)技术,以增强模型的系统二思维(逻辑推理)能力。研究框架涉及训练一个测试用例生成器(TCG)进行标准化代码测试,利用MCTS生成带有推理过程的代码数据,并逐步微调策略模型,先生成伪代码,然后生成完整代码。报告还讨论了在现实世界中部署类似o1模型的机遇与挑战,建议转向系统二范式,并强调更新环境状态的重要性。后续版本将报告模型进展和实验结果。所有源代码、策划数据集以及衍生的模型都将在https://github.com/ADaM-BJTU/O1-CODER 公开。

链接:O1-Coder: an O1 Replication for Coding - AMiner VIP

4.VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation
提出了一种名为VISTA的视频时空增强框架,旨在解决当前大型多模态模型在处理长时序或高分辨率视频时遇到的挑战。VISTA通过合成现有的视频-字幕数据集中的长时序和高分辨率视频指令跟随对,来增强模型对这类视频的理解。该框架通过空间和时间上的视频组合,生成新的合成视频,并创建与这些视频相关的问题-答案对。基于这一框架,研究者开发了七种视频增强方法,并构建了VISTA-400K数据集,以提升长时序和高分辨率视频的理解能力。在四个具有挑战性的长视频理解基准测试中,对多种视频多模态模型进行微调后,平均提高了3.3的性能。此外,研究团队还推出了首个全面的高分辨率视频理解基准HRVideoBench,微调后的模型在此基准上实现了6.5的性能提升,证明了该框架的有效性。

链接:VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation - AMiner VIP

5.X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models
本文提出了一种名为X-Prompt的自动回归视觉语言模型,旨在通过在上下文中学习,实现在广泛的已知和未知图像生成任务中的通用性能。X-Prompt模型通过特有的设计,有效地从上下文示例中压缩有价值特征,支持更长的上下文标记序列,并提高其对未见任务的泛化能力。该模型通过统一训练文本和图像预测任务,增强了从上下文示例中获取的任务感知能力。大量实验验证了该模型在多种已知图像生成任务中的性能以及其对新任务的泛化能力。

链接:X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models - AMiner VIP

AMiner AI使用入口:「链接」

来源:Believe科技

相关推荐