MiniMax开源报告精读:规模化验证替代传统Transformer的新架构

B站影视 2025-01-16 17:41 1

摘要:大模型的“六边形战士”总结来说,MiniMax-01系列的两个模型——MiniMax-Text-01和MiniMax-VL-01,在处理长上下文方面展现了顶级性能,同时提供了处理更长上下文的优越能力。背后的核心创新在于闪电注意力及其高效的扩展能力。为了最大化计

原创 赵健 甲子光年4.大模型的“六边形战士”总结来说,MiniMax-01系列的两个模型——MiniMax-Text-01和MiniMax-VL-01,在处理长上下文方面展现了顶级性能,同时提供了处理更长上下文的优越能力。背后的核心创新在于闪电注意力及其高效的扩展能力。为了最大化计算能力,MiniMax将其与专家混合(MoE)集成,创建了一个拥有32个专家和4560亿总参数的模型,其中每个token激活459亿参数。MiniMax为MoE和闪电注意力开发了优化的并行策略和高效的计算-通信重叠技术。这种方法使其能够在跨越数百万token的上下文中,对拥有数千亿参数的模型进行高效的训练和推理。MiniMax-Text-01的训练上下文窗口可以达到100万个token,并且在推理期间以可承受的成本外推到400万个token。视觉-语言模型MiniMax-VL-01通过继续训练512亿视觉-语言token构建而成。MiniMax表示,其模型与GPT-4o和Claude-3.5-Sonnet等最先进模型的性能相匹配,同时提供了20-32倍更长的上下文窗口。当然,MiniMax也提出了现有模型的局限性。一是长上下文评估:当前长上下文检索任务的评估数据集主要为人工或简化场景设计,实际应用中如文档分析的长文本推理能力的评估仍然有限。MiniMax计划在更现实的设置中增强长上下文检索,并在更广泛的任务中扩展长上下文推理的评估。二是模型架构:模型目前仍保留了1/8的组件使用传统的softmax注意力。MiniMax表示正在研究更高效的架构,可以完全消除softmax注意力,可能实现无计算开销的无限上下文窗口。三是复杂编程任务:模型在高级编程任务上的性能需要改进,因为我们预训练阶段的编码数据集仍然有限。MiniMax正在不断改进训练数据选择和继续训练程序,以解决下一版本模型中的这些局限性。可以说,MiniMax通过全面的基础大模型布局——包括语言模型与视频模型,以及海内外AI产品的布局——海螺AI、星野+Talkie,已经成为大模型领域的“六边形战士”。不过,在OpenAI发布推理模型o1与o3之后,大模型的技术范式从预训练扩展到了推理阶段。国内不少大模型已经跟进,包括Kimi、DeepSeek、Qwen,以及科大讯飞今天刚刚发布的讯飞星火。MiniMax目前尚未发布相关模型。此外,李开复近期公开表态放弃追求AGI。对于同为“六小虎”的MiniMax,不知又会做出什么选择呢?(封面图来自MiniMax)END.原标题:《MiniMax开源报告精读:规模化验证替代传统Transformer的新架构|甲子光年》

来源:小倩说科技

相关推荐