端侧AI新标杆:华为1B模型数学推理超82%,性能飙升8%

B站影视 韩国电影 2025-09-29 00:48 1

摘要:2025年9月26日,华为突然扔出个“重磅炸弹”,openPanguEmbedded-1B开源模型。

2025年9月26日,华为突然扔出个“重磅炸弹”,openPanguEmbedded-1B开源模型。

这模型沉寂了一个月,再次露面性能直接涨了一截,说实话,在端侧AI这个赛道里,这动静真不算小。

咱们先搞明白啥是端侧AI,就是把AI装到手机、摄像头、无人机这些边缘设备里,不是靠云端远程计算。

现在云端AI都能聊上天了,但端侧才是产业变智能的关键,你总不能让个摄像头每次识别东西都连云端吧?延迟高不说,还费流量。

可问题也在这,这些小设备的算力、内存、功耗都有限,传统大模型根本装不下。

之前的方案要么用小模型,能力弱得很;要么把大模型压缩了塞进去,结果要么算得慢,要么算得错,实用价值真心不高。

华为这个10亿参数的模型,就是来解决这个麻烦的。

本来想觉得端侧模型参数越少越容易装,后来发现不是这么回事。

参数太少,复杂任务根本扛不住;参数太多,设备又撑不下。

华为选10亿参数,说实话,挺会找平衡点的。

这个模型是专门为昇腾端侧硬件做的,比如昇腾Atlas200IA2,这设备算力16TOPS,功耗才15W,是很多边缘设备的首选。

华为没硬把模型往硬件里塞,而是让模型和硬件“配合”,隐藏层规模、前馈网络维度这些细节,都按硬件的特点来调,确保每个计算单元都能用起来。

而且这模型不是一步训练成的,分了四步:先从零开始预训练打基础,再用课程学习式微调适配任务,接着靠离线On-Policy蒸馏学大模型的本事,最后用多源奖励强化学习优化。

这么一套下来,能力自然上去了。

上个月开源的V1版本已经不错,这次V1.1平均分直接涨了8%,看得出来华为在这上面没少下功夫。

评测数据也能说明问题,这模型平均分63.9,不仅比同类10亿参数模型强,还跟17亿参数的Qwen3-1.7B打平了。

数学推理这块更厉害,GSM8K和MATH两个基准上的成绩都远超同类。

老实讲,这打破了“参数越大能力越强”的惯性思维,靠方法巧劲,小模型也能有大能量。

从手机到工业摄像头,这些设备对AI的需求其实很实在,不用太花哨,但要准、要快。

之前很多端侧模型要么满足不了精度,要么响应慢得让人着急。

华为这个模型在Atlas200IA2上,首条输出延迟才1.8秒,之后每输出一个词才0.156秒,日常用完全够了。

如此看来,10亿参数还真就是端侧模型的“Goldilocks区”,不多不少,刚好够用。

光有合适的参数还不够,怎么训练才是关键。

华为这套训练方法,说穿了跟咱们上学有点像,不是一股脑灌知识,而是循序渐进陪练习。

先看软硬件协同设计,很多厂商做端侧模型,都是先做模型再找硬件适配,无奈之下只能压缩模型,效果肯定好不了。

华为反过来,从一开始就盯着昇腾硬件的特点,模型架构跟着硬件走。

训练样本的难度是被团队筛选过的,太简单或太难的都去掉了,还加了“零优势”掩码忽略无效惩罚,这样训练起来又稳又高效。

在Atlas200IA2上测试时,这模型不仅快,精度还没降,比那些硬压缩的模型强太多。

再说说两阶段课程学习:第一阶段不追求快,专门让模型学复杂问题的推理过程,就像老师一步步讲题,帮模型打牢逻辑基础;

第二阶段再练快速答题,把推理过程内化,遇到简单问题能直接出答案。

很显然,这样训出来的模型,既不会像只练快的那样“没脑子”,也不会像只练推理的那样“磨磨蹭蹭”。

咱们用手机AI查题时,简单问题要秒回,复杂问题要讲清楚,这模型刚好能满足。

离线On-Policy蒸馏也挺有意思,传统蒸馏是大模型直接教小模型,小模型被动学。

华为这套是让“学生模型”(就是这个1B模型)先自己做题,“老师模型”(更大规模的模型)再根据学生的答案针对性点拨。

并非明智之举的被动接受,而是主动探索后再精准指导,这样学生学进去的知识更扎实,准确率和泛化能力都提上来了。

搞不清之前为啥没人想到这招,确实比传统方法灵活多了。

多源奖励强化学习也得提一句,模型做数学、代码这类能自动验证的任务,就用规则给奖励;做复杂开放任务,就用轻量级LLM模型评估。

格式错了罚得重,答案错但格式对罚得轻,全对才给正奖。

毫无疑问,这样的奖励机制能让模型清楚知道“怎么做才对”,数学推理能力能大幅提升,靠的就是这个。

华为还把这个模型开源了,地址和技术报告都放出来了,开发者能直接用。

更何况,他们还在探索“快慢思考融合”,让模型能自动判断问题难度,简单的快答,复杂的深推。

现在7B版本已经用上这技术了,后续还要开源。

以后端侧设备的AI,说不定既能像云端那样聪明,又能像本地APP那样快。

总的来说,华为这个openPanguEmbedded-1B模型,不是靠堆参数,而是靠找对参数规模、做好软硬件配合、用对训练方法,解决了端侧AI的老难题。

沉寂一个月性能涨8%,还开源给大家用,这波操作确实实在。

后续7B模型开源后,说不定会有更多厂商用它做端侧AI产品,到时候咱们的手机、摄像头这些设备,可能会比现在聪明不少。

要是你对端侧AI感兴趣,不妨去看看它的开源资料,说不定能发现更多有意思的细节。

来源:围炉夜话

相关推荐