摘要:他与大家分享的主题是:“知识蒸馏该用前向KL还是后向KL?”,届时他将主要分析前向KL和后向KL两种散度的特性,并对未来可能的应用做展望。
本期为TechBeat人工智能社区第653期线上Talk。
北京时间1 月2日(周四)20:00,香港大学博士生吴太强的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题是: “知识蒸馏该用前向KL还是后向KL?”,届时他将主要分析前向KL和后向KL两种散度的特性,并对未来可能的应用做展望。
Talk·信息
▼
主题:知识蒸馏该用前向KL还是后向KL?
嘉宾:香港大学 · 博士生 - 吴太强
时间:北京时间 1月2日(周四)20:00
地点:TechBeat人工智能社区
一键预约TALK!
Talk·介绍
▼
知识蒸馏作为 LLM 中常用的模型压缩方法,随着LLM 的参数变多而变得越来越受到关注。最通用的知识蒸馏方式就是使用 KL 散度来对齐教师与学生输出的概率分布。然而,KL 散度不具备对称性,前向 KL 散度与后向 KL 散度并不相等。本 Talk 主要分析两种散度的特性,并对未来可能的应用做展望。
Talk大纲
1. 背景:介绍知识蒸馏与 前向/后向 KL 散度
2. 动机:之前工作提出 RKL 比 FKL 更适合 LLM 的蒸馏,因为 FKL 是 mean-seeking,而 RKL 是 mode-seeking
3. 贡献:本 talk 从理论和实验两个角度来证明这两种 seeking 的现象并不成立。与此同时。拟合初期,FKL 侧重拟合分布的头部,RKL 侧重拟合分布的尾部。
4. 总结:基于发现的特性,介绍了被 COLING2025 接受的 Adaptive KL (AKL)方法,并给出未来可行的研究方向。
Talk·预习资料
▼
论文链接:
代码链接:
博客:
Talk·提问交流
▼
在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
Talk·嘉宾介绍
▼
吴太强
香港大学 · 博士生
吴太强, 本科毕业于清华自动化系, 硕士毕业于清华深圳国际研究生院, 师从杨余久教授, 目前在香港大学电机电子工程系攻读博士学位, 主要研究方向是高效大语言模型, 包括模型压缩与参数高效微调. 曾在 NAACL, EMNLP, WSDM, COLING 等顶会发表多篇一作论文。
个人主页:
https://www.techbeat.net/grzytrkj?id=9169
-The End-
如果你也想成为讲者
▼
自荐 / 推荐
单人Talk | 团队专场 | 录播or直播 | 闭门交流
多种方式任你选择!
推荐讲者成功也有奖励哦~
关于TechBeat人工智能社区
▼
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区
来源:好学教育