0.5B以小搏大拿下端侧新SOTA:长文本处理5倍常规加速丨清华&面壁 在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。 清华 sota 分类器 面壁 infllm 2025-06-10 15:40 2