Talk预告 | 中国科学院计算所张绍磊：LLaVA - Mini - “一个视觉标记”的高效多模态大模型

摘要：他与大家分享的主题是:“LLaVA - Mini - “一个视觉标记”的高效多模态大模型”，届时他将分析一些关于大模型内部视觉信息流动的有趣观察，以及提升多模态大模型效率的解决方案。

本期为TechBeat人工智能社区第688期线上Talk。

北京时间5 月29日(周四)20:00，中国科学院计算所博士生张绍磊的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是: “LLaVA - Mini - “一个视觉标记”的高效多模态大模型”，届时他将分析一些关于大模型内部视觉信息流动的有趣观察，以及提升多模态大模型效率的解决方案。

Talk·信息

▼

主题：LLaVA - Mini - “一个视觉标记”的高效多模态大模型

嘉宾：中国科学院计算所 · 博士生 - 张绍磊

时间：北京时间 5月29日(周四)20:00

地点：TechBeat人工智能社区

一键预约TALK！

Talk·介绍

▼

多模态大模型将每张图像编码成数百个vision tokens输入至LLM，造成大量的计算开销。为提升多模态大模型效率，是否能在确保视觉理解能力的同时减少输入到LLM的vision tokens数量？Talk会分析一些关于大模型内部视觉信息流动的有趣观察，以及提升多模态大模型效率的解决方案。

Talk大纲

1. 背景：多模态大模型的效率问题

2. 方法：LLaVA-Mini介绍

3. 实验：LLaVA-Mini的视觉理解能力和效率评估

4. 总结：一些takeaways

Talk·预习资料

▼

论文链接：

代码链接：

Talk·提问交流

▼

在Talk界面下的【交流区】参与互动！留下你的打call🤟和问题🙋，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

▼

张绍磊

中国科学院计算所 · 博士生

张绍磊，中国科学院计算技术研究所博士生五年级，导师为冯洋研究员。主要研究方向为自然语言处理、实时模型、大语言模型。以第一作者在ACL、NeurIPS、ICLR等国际会议中发表论文10余篇，曾获国际同声传译测评比赛（AutoSimTrans 2021）流式输入赛道冠军。曾担任中文信息学会青年工作委员会学生执委会主任、ACL ARR Area Chair。

个人主页:

https://www.techbeat.net/grzytrkj?id=44895

-The End-