追求概率质量的帕累托最优:广义α-β散度引导知识蒸馏框架ABKD 知识蒸馏(KD)是一种将大模型(教师)的知识迁移到小模型(学生)的技术,学生通过模仿教师预测分布,充分利用软标签信息,通常优于传统监督微调,已在图像分类、文本生成等任务及最新工作(如 DeepSeek-R1、Qwen-3)中得到验证。其核心在于分布匹配方式的选 wsd 帕累托最优 abkd fkld rkld 2025-06-09 19:30 3