abkd

ICML Spotlight 2025丨追求概率质量的帕累托最优：基于广义α-β

ICML Spotlight 2025丨追求概率质量的帕累托最优：基于广义α-β

知识蒸馏（KD）是一种将大模型（教师）的知识迁移到小模型（学生）的技术，学生通过模仿教师预测分布，充分利用软标签信息，通常优于传统监督微调，已在图像分类、文本生成等任务及最新工作（如 DeepSeek-R1、Qwen-3）中得到验证。其核心在于分布匹配方式的选

wsd spotlight 帕累托最优 abkd fkld 2025-06-10 12:45 5

追求概率质量的帕累托最优：广义α-β散度引导知识蒸馏框架ABKD

追求概率质量的帕累托最优：广义α-β散度引导知识蒸馏框架ABKD

知识蒸馏（KD）是一种将大模型（教师）的知识迁移到小模型（学生）的技术，学生通过模仿教师预测分布，充分利用软标签信息，通常优于传统监督微调，已在图像分类、文本生成等任务及最新工作（如 DeepSeek-R1、Qwen-3）中得到验证。其核心在于分布匹配方式的选

wsd 帕累托最优 abkd fkld rkld 2025-06-09 19:30 7