弃用Transformer!混元T1正式版推出,公开对垒DeepSeek

B站影视 日本电影 2025-03-24 11:18 1

摘要:这样做有啥好处呢:简单地说,混合Mamba架构通过降低计算复杂度、缓存占用,同时发挥其在处理长序列和捕捉复杂上下文方面的优势,成功应对了大规模强化学习训练的挑战,显著提升了系统的整体效率和吞吐量。还实现了实现了训练跟推理成本的双下降!

深夜,腾讯开直播发布了T1的正式版。

腾讯在架构上大胆弃用了Transformer,首个基于混合Mamba架构的超大型推理模型就诞生了!

这样做有啥好处呢:简单地说,混合Mamba架构通过降低计算复杂度、缓存占用,同时发挥其在处理长序列和捕捉复杂上下文方面的优势,成功应对了大规模强化学习训练的挑战,显著提升了系统的整体效率和吞吐量。还实现了实现了训练跟推理成本的双下降!

从此,模型无论是思考还是生成答案都快到起飞!

官方也是非常自信地宣布:T1性能达到超一流水平,仅次OpenAI o1!

先来放个体验地址:https://llm.hunyuan.tencent.com/#/chat/hy-t1

腾讯T1选择深夜直播的目的很明显:冲向国际化!

因此,在这场直播的前半段,也是相当频繁地以目前海内外爆火的DeepSeek为标杆。

首先,在回答质量基本打平的情况下,T1的速度达到了DeepSeek的两倍:

再做一个条件推理题目时,T1早早就进行了交卷。

除了生成速度之外,T1在处理复杂指令上,也进行了改进。在demo的演示中,小哥出了上联“深深浅浅溪流水”,进行思考后T1对了“洋洋洒洒江河满”。(虽然也不是最工整的对子,但已经相当出色)。

其次,T1在回答问题的文风上做了优化,使其回答更具通用性。

团队成员介绍说,我们观察到某些推理模型像理工男,喜欢用高深的硬科技词汇……。混元T1则对此进行调整,虽然同样擅长理工科的长推理,但在文科方面表现得比较中性,更适合通用任务和常识性任务。

“高深的硬科技词汇”,DeepSeek:你直接报我名得了。

上图:DeepSeek偏爱“量子纠缠”等术语

最后,T1还针对目前大模型饱受诟病的幻觉问题做了优化,摘要幻觉率显著低于行业水平,成为一大亮点。

“推理模型虽然看上去思考了很多,但就会产生更多的幻觉,有时候是无中生有,有时是张冠李戴。”混元T1针对这方面做了重点优化。

小哥们表示,用T1来解读研报非常香,简直是打工人的福音。

既然直播请到了技术团队,那肯定得解析下T1为何有如此多的独到之处。

T1基于混元Turbo S通用模型基座,通过大规模高质量数据训练,在预训练阶段打下坚实基础。

在后训练阶段,T1采用独特的指令激发策略,注重高质量Prompt和Response数据的获取。通过复杂指令的多样性和难度分级系统,确保指令的丰富性和层次性。同时,通过约束模型为每条Prompt生成Checklist,筛选出满足多样化约束的指令,防止指令分布不均匀。

T1在数据质量方面采取了严格措施。首先,通过数据质量检测Pipeline(指的是按照特定顺序执行的质量检测步骤或操作流程),结合传统算法和大模型检测方法,确保训练数据的基础质量,避免低级错误。其次,针对长思维链数据中的幻觉和逻辑错误问题,训练了一个Critic(批判)模型进行严格把控。该模型能够识别和检测数据中的噪音问题,确保训练数据的准确性和可靠性,从而提升模型在复杂任务中的表现。

不仅如此,团队还发现了一个很有意思的现象,即从理科训练获得的推理能力是可以通过能力迁移到文科和其他领域的。

因此,团队刻意让模型去进行能力迁移,通过将早期版本融入奖励系统指导正式版本迭代,提升通用能力。

不仅是技术创新,T1团队在工程化方面也做了很多工作。

团队成员介绍说,超大型推理模型目前面临着“三座大山”:计算资源的效率挑战、高带宽带来的通信挑战、集群规模扩大之后,在规模扩展和稳定性方面的挑战。

通过优化,T1在万卡训练任务中,计算资源利用率处于行业领先水平。同时,突破了分布式训练和推理的通信瓶颈,有效提升了端到端存储,使得训练效率提升了2.6倍,推理成本降低了约70%。

在大规模GPU集群中,腾讯实现了万卡线性扩展,加速比达到99%,服务稳定性达到99.5%,故障率仅为行业平均水平的三分之一。

为高性能保驾护航的安全平台主要包括两个组件:

训练组件(安全PDM):针对低端算力和显存限制,腾讯自主研发了大规模训练框架,通过统一内存显存管理和多维并行优化,显著提升了训练的可扩展性。

推理组件(安全HCF):支持万亿级别的MOE大模型部署,具备多种并发策略、投机采样、量化和稀疏化压缩策略。此外,还支持PD分离部署策略,以充分利用高低端显卡组合的性能。

Angel平台已经在多个大模型场景中广泛应用,包括多模态、语音、3D、视频等,展现了其高性能和高稳定性的优势。

在写这篇文章的时候,小编也忍不住体验了一把T1,的确速度拉满。

在我测试的这个案例中,T1生成速度飞起的同时,思考的维度全面、信息给的更加丰富。

问题:为什么意大利面是低GI食物?

相信在这个周末,T1会拥有很多的实例测试,我们就能更加了解首款混合Mamba架构推理模型的真正实力了。

或许,T1的这波投石问路,会让接下来有更多非Transformer的模型涌现出来呢?

来源:51CTO

相关推荐