中国芯片突破垄断!中科院打造76亿GPU模型,效率比国外快100倍

B站影视 港台电影 2025-09-24 19:44 3

摘要:过去几年,大模型领域几乎离不开Transformer架构,GPT、Claude、Gemini这些前沿模型的进步,都靠它撑着。

文|馒头

编辑|江娱迟

过去几年,大模型领域几乎离不开Transformer架构,GPT、Claude、Gemini这些前沿模型的进步,都靠它撑着。

但这份进步藏着两个棘手的问题:文本一变长,Transformer的计算量和内存消耗就成倍涨,百万级token的任务几乎扛不住,运算会变得特别慢。

更关键的是,大模型训练全靠NVIDIA的GPU体系,从算力到软件栈都绑在CUDA上,硬件自主化成了难迈的坎,行业发展总有点被动。

面对这困境,业界没停过找“新路子”:有人试混合架构,想补单一架构的短板;有人钻稀疏专家机制,盼着减少资源浪费。

还有人试水类脑计算,想从人脑工作模式里找灵感,可这些探索大多停在小规模实验,很难用到大模型上,大模型好像还是困在老框架里。

直到最近,中科院团队的新论文打破了僵局,他们提出了类脑大模型SpikingBrain。

这模型一出来,就像在迷雾里点亮了灯:引入spiking神经元、线性注意力和稀疏专家机制后,不仅超长文本处理快了100倍,还第一次在国产GPU平台MetaX上,稳定训练出了76B规模的模型,彻底打破了“大模型只能靠NVIDIA”的固有想法。

SpikingBrain的实验结果特别亮眼。以SpikingBrain-7B为例,输入文本到400万token时,它的首个token生成延迟比传统Transformer快100倍。

过去要等很久的超长文本任务,现在几乎能即时响应。

这背后是spiking神经元的“功劳”:它只在必要时“放电”,推理时模型有69.15%的稀疏激活率,大多数神经元大部分时间都静默,不参与计算。

比起传统Transformer全程满负荷工作,这种“按需出力”的方式,大大降低了算力和能耗,让模型跑得更高效。

训练上,团队用1500亿token练出了SpikingBrain-7B和76B两个核心模型。

虽说数据量比很多主流开源大模型少,但这两个模型在多项基准测试里,表现能接近甚至部分追平传统Transformer,足见它架构设计的优势。

更关键的是,所有训练都在国产MetaXC550GPU集群上完成,7B模型还达到了23.4%的FLOPs利用率。

这直接证明,非NVIDIA硬件也能稳跑大模型,给国产硬件在大模型领域打了个漂亮的前站。​

这份突破,是团队在模型结构、训练方法、系统工程三方面啃硬骨头啃出来的。

在架构上,他们改了Transformer的关键部分:把全连接注意力换成线性注意力和混合注意力,从根上缓解了“文本越长计算越难”的问题。

同时加了spiking神经元,让模型像人脑一样“按需放电”,这种类脑机制带来的稀疏性,成了能效提升的核心。​

系统层面的挑战更难:团队没选成熟的NVIDIA体系,偏要在国产MetaXGPU上做训练。

为了让模型稳跑,他们把底层系统大改了一遍:重写关键算子库,让计算适配国产硬件。

改分布式通信机制,加快数据传输;还专门解决了长时间训练里常见的内存溢出和死锁问题。

就靠这些优化,他们不仅在几百张MetaXGPU上练稳了7B模型,还扩展到76B规模,甚至加了MoE稀疏专家机制,进一步提了性能和效率。

训练环节也有巧思:为了让新架构跑通,团队设计了conversion-basedpipeline,把Transformer成熟的训练经验迁移到SpikingBrain上。

配合事件触发的spike编码,脉冲神经元也能通过反向传播学习,避开了“不可微”的坑。这种迁移设计既保证了训练稳定,也一步步把模型规模做大,为新架构落地铺了路。

对整个行业来说,SpikingBrain的价值远不止一个新模型。

它用实际成果回应了大模型的核心痛点:百万级token长文本处理的数量级加速,证明类脑机制不是纸上谈兵,真能带来收益。

首次在国产GPU上练出76B模型,说明大模型不用绑死CUDA,硬件路线有更多可能;稀疏激活还降了能耗,给“大模型能不能可持续发展”这个老问题添了新答案。​

当然SpikingBrain现在还取代不了Transformer,它更像给行业递了个新样本,证明大模型还有别的路可走。

至于它能不能在更复杂任务、更大规模下稳住,类脑机制能不能变成成熟工具链,还得等时间和更多验证。​

但至少现在,我们清楚看到了:大模型发展不是只有一条路。SpikingBrain这束微光,正一点点点亮新路径,也给行业注入了新活力。

未来再多些探索和实践,说不定还会有更多突破,让大模型领域变得更多元、更有活力。

来源:江语迟

相关推荐