摘要:他与大家分享的主题是:“CIF-Bench - 评估大模型中文指令泛化能力的基准”,届时他将揭示LLM处理中文任务的当前瓶颈,并为未来泛化性研究设立了新标准,推动开发更具适应性、文化感知力和语言多样性的模型。
本期为TechBeat人工智能社区第673期线上Talk。
北京时间4 月2日(周三)20:00,曼彻斯特大学博士生曲星威的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题是: “CIF-Bench - 评估大模型中文指令泛化能力的基准”,届时他将揭示LLM处理中文任务的当前瓶颈,并为未来泛化性研究设立了新标准,推动开发更具适应性、文化感知力和语言多样性的模型。
Talk·信息
▼
主题:CIF-Bench - 评估大模型中文指令泛化能力的基准
嘉宾:曼彻斯特大学 · 博士生 - 曲星威
时间:北京时间 4月2日(周三)20:00
地点:TechBeat人工智能社区
一键预约TALK!
Talk·介绍
▼
大语言模型(LLMs)的进步显著提升了其在指令遵循任务中对未见过自然语言处理(NLP)任务的泛化能力。然而,在中文等低资源语言中,这种效能往往大幅降低,而数据泄露导致的评估偏差进一步加剧了这一问题,使人们对其在新语言领域的真实泛化能力产生质疑。
为此,我们提出了中文指令遵循基准测试(CIF-Bench),旨在评估大语言模型对中文的零样本泛化能力。CIF-Bench包含150项任务和15,000个输入-输出对,由母语者设计,覆盖20个类别以测试复杂推理能力及中国文化细节。为缓解数据污染问题,我们仅公开数据集的50%(其余作为私有集),并通过引入多样化指令降低评分方差,总数据量达45,000条实例。对28个精选LLM的评估显示,性能差距显著,最优模型(Qwen-72B)仅得52.9%,凸显LLM在陌生语言和任务场景中的局限性。
这项工作不仅揭示了LLM处理中文任务的当前瓶颈,还为未来泛化性研究设立了新标准,推动开发更具适应性、文化感知力和语言多样性的模型。
Talk大纲
1. 研究背景:中文指令数据集的重要性和基准评测不足
2. 研究问题:LLMs对于中文指令的表现如何,是否存在偏见等问题
3. CIF-Bench 数据集简介
4. CIF-Bench 数据集分类
5. CIF-Bench 数据集评估
Talk·预习资料
▼
论文链接:
Talk·提问交流
▼
在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
Talk·嘉宾介绍
▼
曲星威
曼彻斯特大学 · 博士生
曲星威是曼彻斯特大学(UoM)的博士生。其研究重点是理解和增强大语言模型(LLMs)的预训练和Benchmark,并在该领域做出了诸如MAP-NEO, MuPT 和 MAmmoTH 等贡献。他的研究成果曾发表于ICLR, ACL, Coling 等顶级学术会议上
个人主页:
https://www.techbeat.net/grzytrkj?id=22013
-The End-
如果你也想成为讲者
▼
自荐 / 推荐
单人Talk | 团队专场 | 录播or直播 | 闭门交流
多种方式任你选择!
推荐讲者成功也有奖励哦~
关于TechBeat人工智能社区
▼
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区
预约本期Talk
来源:才子教育