摘要:他与大家分享的主题是:“LLaVA - Mini - “一个视觉标记”的高效多模态大模型”,届时他将分析一些关于大模型内部视觉信息流动的有趣观察,以及提升多模态大模型效率的解决方案。
本期为TechBeat人工智能社区第688期线上Talk。
北京时间5 月29日(周四)20:00,中国科学院计算所博士生张绍磊的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题是: “LLaVA - Mini - “一个视觉标记”的高效多模态大模型”,届时他将分析一些关于大模型内部视觉信息流动的有趣观察,以及提升多模态大模型效率的解决方案。
Talk·信息
▼
主题:LLaVA - Mini - “一个视觉标记”的高效多模态大模型
嘉宾:中国科学院计算所 · 博士生 - 张绍磊
时间:北京时间 5月29日(周四)20:00
地点:TechBeat人工智能社区
一键预约TALK!
Talk·介绍
▼
多模态大模型将每张图像编码成数百个vision tokens输入至LLM,造成大量的计算开销。为提升多模态大模型效率,是否能在确保视觉理解能力的同时减少输入到LLM的vision tokens数量?Talk会分析一些关于大模型内部视觉信息流动的有趣观察,以及提升多模态大模型效率的解决方案。
Talk大纲
1. 背景:多模态大模型的效率问题
2. 方法:LLaVA-Mini介绍
3. 实验:LLaVA-Mini的视觉理解能力和效率评估
4. 总结:一些takeaways
Talk·预习资料
▼
论文链接:
代码链接:
Talk·提问交流
▼
在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
Talk·嘉宾介绍
▼
张绍磊
中国科学院计算所 · 博士生
张绍磊,中国科学院计算技术研究所博士生五年级,导师为冯洋研究员。主要研究方向为自然语言处理、实时模型、大语言模型。以第一作者在ACL、NeurIPS、ICLR等国际会议中发表论文10余篇,曾获国际同声传译测评比赛(AutoSimTrans 2021)流式输入赛道冠军。曾担任中文信息学会青年工作委员会学生执委会主任、ACL ARR Area Chair。
个人主页:
https://www.techbeat.net/grzytrkj?id=44895
-The End-
如果你也想成为讲者
▼
自荐 / 推荐
单人Talk | 团队专场 | 录播or直播 | 闭门交流
多种方式任你选择!
推荐讲者成功也有奖励哦~
关于TechBeat人工智能社区
▼
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区
预约本期Talk
来源:必本科学社区