多模态大模型行业近期交流(附大模型概念股)

B站影视 内地电影 2025-06-09 00:03 2

摘要:当前常见场景分双模态(如语音加文字、语音加情感、无声音视频配手语等和三模态。在技术结构上,多态和单模态从训练和推理两角度有本质区别。训练角度,单模态如语音识别基于强化学习无标注可行,但多模态涉及两个及以上模态时绕不过数据标注,成本和周期会长一些,且要解决向量统

1:多模态模型与传统的单模态模型,在数据处理、模型设计和应用场景上有哪些核心和本质的差异?

当前常见场景分双模态(如语音加文字、语音加情感、无声音视频配手语等和三模态。在技术结构上,多态和单模态从训练和推理两角度有本质区别。训练角度,单模态如语音识别基于强化学习无标注可行,但多模态涉及两个及以上模态时绕不过数据标注,成本和周期会长一些,且要解决向量统一问题,即不同模态转码后的向量要统一并放到同一空间协同工作,让模型具备理解能力。推理生成阶段,多态消耗大,可能涉及额外编码辅助能耗,生成信息时还可能需转文字,成本变高。此外,不同模态结合时,背后算法变化复杂度及消耗成本有明显区别,如语音加视频理解生成成本高,文字加图片理解生成成本低。

2:从算法、数据、算力三个维度,如何相对更量化地评价其对多模态后续模型能力升级的影响?

在多模态研究尤其是视频方向,算力是第一步的基础制约因素。从算力角度来看Google最新的视频生成大模型VIVO3在核心研发及训练阶段,需投入50万片H100或H200级别的芯片并配合其自研的TPU,耗时三个月。而从2023年末的商务禁令来看,国内总计进口的H100量可能都没50万片。此外,国内字节、快手、MiniMax等公司在今年季度发布或更新的文生视频方向模型,都强调推理消耗超级小,甚至可用4050、4090做推理,但生成的视频相对简单;而美国公司如GPT-4、VIVO3等,没人提及生成省卡省算力,只说视频图片方向的进步。由于国内卡少,工程师写代码验证对错的效率远低于美国,导致算法进展变慢。从数据层面来看,目前围绕基本广告素材、自媒体短视频等,这些年积累的广告、电视剧、影视剧、自媒体以及专业级工作室拍摄的高清精致视频是够用的。

3:动态的数据融合和线上统一维度的具体技术难点体现在哪里?2024年至今在算法维度有哪些比较重点的突破?如何看待跨态、多双模态、多模态等更多维度的未来世界模型建设的进展节奏?

多模态可从工作原理上拆分为多模态理解(输入)、多模态生成(输出)和理解三个环节,每个环节都可独立成一个场景。从模态成熟度来看,语音文字模态相对成熟,语音单模态掌控性较好,图片单模态的理解生成表现不错,而视频尤其是生成方向还有很大提升空间。

在多模态理解环节,当前国内理论上有进展。三五个月前,要先掌控对不同模态单模态输入的向量化能力,再定制出能将不同模态信息转换成统一向量的中间向量,但在统一向量化过程中会出现信息损失问题,且大模型注意力机制在处理涉及视频的多模态输入时,需要做详细编码对齐工作。二季度开始有了跨模态注意力机制的进展,即涉及视频时以视频为主,不涉及视频优先考虑文字,确定核心依据后,向量转码空间对齐以及注意力机制效果会有提升,但目前向量对齐仍有损目精确度损耗较大。在多模态生成环节,存在两大问题。

一是算力问题,多态生成的推理过程比模型预训练时更耗算力;

二是当前transformer架构的注意力机制问题,在将信息转化成长视频时会发散,导致内容不可控。深层次多模态涉及视频时表现较差,若不涉及视频,如生成文字加语音、语音加情感、带文字的图片等表现较好,但能耗较高。总体而言,多模态涉及视频的技术仍处于早期,还有很大发展空间。

4:国内厂商大概多久能够实现接近于谷歌最新生态模型的能力?

国内对大模型全面投入的公司只剩阿里和字节。在生成式视频多模态方面,国内表现好的是mini max,阿里通义、字节奇梦系里的一些模型在文生视频领域不如快手和minmax的海螺。国内公司商业化做得好,如快手可伶利用自身优势在文生视频单模态及结合快手的表现最受欢迎。国外表现好的头部公司是GPT-4和谷歌的Vivo 2、Vivo 3GPT-4对多模态综合输入理解好,生成图片效果佳;谷歌Vivo 3能做到有人类语音对的视频生成,Vivo 2视频时长可达两分钟目为4K。若国内公司继续看好自身商业化,三个月内很难达到Vivo 3有人类对白语音加上唇动表情原声的表现,3-6个月内可能也出不来。像可伶、V Max有不错收入,若投入追赶谷歌Vivo 3,受算力等限制,三个月内实现的概率非常低。阿里全面投入但文生视频不是重点,突破此事概率相对低或时间会长;字节短时间内堆积能力可能性最大,可把研发和算力需求放到美国,但从难度评估至少需要三个月。

5、在满足较好的数据标注情况下,通过强化学习方法,T5对于后续综合态模型的训练算力需求是否会有明显节省?

GPT-3是自推理模型,GPT-3和GPT-4都是文本类模型,GPT-3在文本类方向具备思维链自推理模型的能力。自推理在多模态理解上有很好应用,方式是先将图片或视频内容做转码向量化,再发给LLM这类自推理模型,可在理解上发挥作用。但总体来说,LLM对多模态没有直接帮助,像视频生成、音视频理解等环节,除最终内容理解逻辑推理可调用自推理模型思路外,其他更多是拆分理解或基于diffusion的噪声渲染LLM曾经做出的贡献暂时不适用。未提及对算力需求是否有明显节省的判断。

阿里方面,通义系列大模型综合能力强,在业内受认可。其ASR实时语音方案、通义万相表现不错。阿里会围绕自身核心稳步推进模型,在高德、优酷等阿里系公司广泛使用,但在C端没有激进动作。字节方面,在多态应用有诸多亮点。对外输出方案上,火山引擎即将上线众包里视频通话实时理解功能,在全态输入、多模态理解方向,在C端和B端解决方案上有明显优势;综合语音能力方面表现出色,双工实时对话和语音合成方向领先,还推出一键生成播客模型;文生图方向,字节和通义比较领先;文生视频方向,字节有ByteGo全模态技术,综合技术能力强,但生成视频表现不是最好,国内做全模态理解后生成式输出的只有阿里和字节,若只看视频生成,从商业化和用户数等角度,字节最高排第三,前两位是科大讯飞和海螺,百度的lmageToV6表现也不错。总体来看,字节涉及领域最广,在多个领域表现不错,阿里型综合实力较好。

来源:全产业链研究一点号

相关推荐