摘要:现有的大模型主要依赖固定的参数和数据来存储知识,一旦训练完成,修改和更新特定知识的代价极大,常常因知识谬误导致模型输出不准确或引发“幻觉”现象。所以模型编辑格外重要。麻省理工提出了GRACE终身模型编辑方法,使用离散的键值适配器来对部署的模型进行持续的编辑和优
现有的大模型主要依赖固定的参数和数据来存储知识,一旦训练完成,修改和更新特定知识的代价极大,常常因知识谬误导致模型输出不准确或引发“幻觉”现象。所以模型编辑格外重要。麻省理工提出了GRACE终身模型编辑方法,使用离散的键值适配器来对部署的模型进行持续的编辑和优化,以应对模型随时间老化的问题。
为了让大家更好的掌握GRACE,研梦非凡于11月29日晚(周五),邀请了多模态专家王导师,为大家独家详解《免训练大模型编辑,从源头消除大模型“幻觉”》,从大模型现有问题到模型编辑的原因与优势,重点讲解GRACE的代码实现以及实验研究,并对未来研究方向进行详细分析,一文速通GRACE,为你的研究带来新的思路和突破!
凡预约即可免费领取300篇前沿论文(模型编辑+大模型+多模态)NeurIPS MIT《Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adaptors》
一、研究背景语言模型出现性能下降
重新训练或微调成本高昂
持续学习方法存在局限性
二、相关工作EMNLP《Editing Large Language Models: Problems, Methods, and Opportunities》
为什么要模型编辑
模型编辑的目标
模型编辑
可靠性
泛化性
局部性
方法分类
保留模型参数
修改模型参数
👇🏻扫描二维码找助教0元预约直播课!
三、方法:GRACEGRACE 模型架构
终身模型编辑
组件
Codebook(代码簿)
Keys(键)
Values(值)
Deferral radii(延迟半径)
Deferral Mechanism(延迟机制)
算法
问题表述
编辑过程
反向传播
推理
四、实验训练与测试
数据集设置
实现细节
实验结果
五、代码实现环境设置
数据准备
GRACE模型实现
编辑器组件
实验配置
运行实验
结果分析
代码结构
六、未来研究方向多跳编辑
概念
实验分析
方法
结论
直播导师介绍王导师
【学术背景】拥有丰富的深度学习研究、论文发表经验,多篇SCI论文、EI会议论文(一作)
【研究方向】大语言模型、视觉语言模型、多模态学习,以及自然语言处理、进化算法等
ps:研梦非凡开设的前沿论文系列直播,旨在帮助大家提升读论文技能,快速抓住重点,掌握有效方法,进而找到创新点,轻松产出科研论文成果。科研论文idea,并非拍脑门就能产生,需要经过一遍遍做实验、跑代码、改模型、思路修正。研梦非凡专业论文指导,和研梦导师一起找idea,共同解决科研问题。授之以渔——搭建论文写作框架,增删改查,针对性实验指导!哪里薄弱补哪里!
>>
研梦非凡的导师来自海外QStop50、国内华五、C9、985高校的教授/博士导师/博士后,世界500强公司算法工程师,以及国内外知名人工智能实验室研究员。
这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。包括但不限于以下导师~~
>>
全新6人尖端科研课题组论文辅导
改成加入6人尖端课题组,GET前沿论文创新点,积累科研项目经验,发论文+攒经验,一键获得进入清华大学/AI Lab实习或硕博推荐的机会,还有吉利汽车就业实习内推,戳图查看详情。
>>
我们不是小作坊哦~我们背靠研途考研(就是张雪峰老师和徐涛老师在的那个研途考研),做教育十余年,重交付,重口碑,是我们一贯的公司理念!
来源:hoogoow