AI大模型专题核心观点(附国产大模型概念股)

B站影视 欧美电影 2025-09-28 10:33 1

摘要:架构与算力差距: 国内大模型在架构与算力方面与海外存在显著差距。架构上,国内近年追赶迅速,但多在海外已定义的架构基础上进行,如Transformer MOE、强化学习搭配人类辅助等架构多由海外提出,国内缺乏自研突破性创新。

1、国内与海外通用大模型差距分析

架构与算力差距: 国内大模型在架构与算力方面与海外存在显著差距。架构上,国内近年追赶迅速,但多在海外已定义的架构基础上进行,如Transformer MOE、强化学习搭配人类辅助等架构多由海外提出,国内缺乏自研突破性创新。

算力上,海外AI公司(微软、谷歌、Meta)的GPU算力(换算成H100)比国内大厂多一个量级,受中美贸易战及资源输出限制,短期内较难突破。 模型定位与应用差异: 国内外模型在定位与应用上差异明显。

国内模型侧重控制推理成本,追求性价比,与国内用户消费习惯和市场分布有关。海外模型(如GPT、谷歌)追求顶级性能,采用高定价策略,如OpenAI曾推出月费200美元的GPT Pro。此外,海外模型如GPT能主导全球市场,国内大模型缺乏此类杀手级应用。 国内优势与挑战: 国内大模型追赶有优势也有挑战。优势在于数据获取较宽松,欧美对数据来源审核严格,国内针对大模型训练数据的法律尚不明确。挑战是需提升应用全面性,如千问虽有整合能力,但未达GPT覆盖全球场景的水平。

2、国内大模型开源生态建设

大厂开源策略差异: 国内大厂在开源生态建设上采取差异化策略。字节、快手有成熟C端商业化产品(如豆包大模型、即梦、克林),其核心技术(模型架构、训练数据组成)属技术壁垒,仅部分开源,如模型权重、部分源代码或训练数据。阿里商业化业务不依赖大模型技术壁垒盈利,选择全开源,开放整体模型权重、代码和训练数据。

3、多模态布局及能力评价

大厂多模态布局现状: 国内互联网大厂多模态布局已形成共识,从早期侧重语言模型转向多方向多模态结合。阿里布局偏全模态,覆盖文本、图像、音频、视频领域,推出天工GL、OMI、通义万象等多模态融合模型,其千问大模型在音频及音乐理解上已有demo展示,描述精确且幻觉减少,为理解生产一体化奠定基础。快手以可灵模型为代表,核心功能包括文生视频和图生视频,近期更新支持在生成视频中加入适配画面场景的卡点音效,并推进音乐生成链路完善,以实现文字或图片生视频的全链路规划。腾讯混元模型与可灵功能相似,侧重文生视频和图生视频,同时开源3D生成大模型(未完全开放内容),在国内3D生成领域较为少见。百度依托自身AI数据积累,当前重点布局数字人、可控视频生成及剧本内容,相较于可灵、混元的视频生成,更偏向垂类应用。字节豆包为全面多模态模型,涵盖语音、音乐、图片、视频生成,其优势在于下游产品链路完善(如剪映、抖音),可更好利用大模型输出结果。此外,爱施科技、智谱、商汤、杰越星辰、月之暗面等企业也在各自垂类领域布局,涉及图片、视觉生成、动画生成等细分方向。 国内外多模态能力对比: 国内多模态模型在本土化场景适配性上具有优势,训练数据聚焦国内电商广告、短视频、接地气对话及音乐等场景,在此类场景下通过prompt控制生成的内容更贴合国人需求。成本控制方面,国内模型在API及C端用户订阅价格上较海外模型更具性价比。

但在通用泛化性上,海外早期模型效果更优。具体差距体现在:长文本理解能力上,国内模型对较长文本的理解程度与海外模型存在一定差距;通用prompt控制准确率方面,除本土化场景外,国内模型在通用prompt控制及corner case处理能力上仍落后于海外模型。

4、MOE架构发展与挑战

MOE架构优势与现状: MOE架构与传统Transformer有核心差异。传统Transformer无论输入如何,都要激活全模型参数计算,导致成本和时间难控。MOE架构将模型分为多个专家系统,设门控系统依输入分配至对应专家系统处理,无需激活全模型参数,降低了成本和时间。目前,大模型架构开发者普遍采用MOE方案,它与强化学习、Transformer成了大模型架构标配。 未来升级方向与难点: MOE架构未来需重点优化三方面:一是门控系统精准度。当前门控分配系统输入分配不准,如自助餐系统中,点牛排需求可能被误分配到煮面或煮饭系统,提升分配准确性是首要任务。二是专家系统差异化设计。目前MOE内专家系统规模相同,但通用模型中,负责代码处理、图片生成、语言理解等功能的专家系统规模应不同,未来需按需调整。三是训练稳定性。当前MOE存在部分专家系统‘躺平’(训练不足)或‘过劳’(任务过载)问题,这与任务分配有关,还需优化模型内专家内存分布,减少差异,维持系统一致性与通用性。

5、大模型经济性与竞争格局

成本下降驱动因素: 大模型成本下降主要由三方面因素驱动。其一,算力供需变化方面,2024年中期许多厂商放弃大模型训练,市场出现未使用的闲置算力流出,算力成本因此下降。其二,技术优化层面,2024年起大模型技术路线逐渐成熟,引入云加速、云优化等技术,大幅降低了GPU运算量。其三,市场竞争行为影响,部分模型效果较差的厂商为抢占市场,采取低价策略,甚至以低于成本的价格吸引用户,类似京东补贴抢美团市场的模式,直接拉低用户使用定价。尽管这种竞争对用户而言增加了选择,但对行业整体发展存在不利影响。

头部厂商竞争差异: 头部大模型厂商的竞争格局呈现差异化策略。字节依托自身独占的基础模型优势,在推进C端商业化的同时,通过模型迭代、数据增量、SFT精选数据微调等方式加固技术壁垒,目标是打造更快、更好、更便宜的模型以吸引消费者。阿里在无商业化营收的情况下,选择在开源领域发力,通过开源模型连接自身提供的算力及云服务平台生态,以配套服务实现盈利,例如使用阿里开源模型需依赖其提供的算力等配套资源。百度凭借早期布局和自身在云端、基础设施的优势,更侧重B端技术落地与整合,聚焦商业模式探索,而非参与开源或C端竞争。部分在基模训练中因成本资源限制追赶困难的厂商,则选择转向应用开发,同时将此前积累的模型架构与细节开源,形成另类发展路径。

6、端侧AI融合与商业化路径

端侧部署技术难题: 当前端侧AI融合存在技术难题,主要在模型运算与部署层面。部署在机械或眼镜等设备上,虽能保证快速反应,但设备成本难降、重量与续航受限。以智能眼镜为例,小米、Meta等厂商降低重量、提升续航,部署轻量模型也需大量调整且效果难达预期。部署在云端,虽可降低成本与重量(机器人无重量问题),但互动性与延时性差,无网络或网络不佳时用户负反馈强烈。因此,需技术突破优化模型训练框架,缩小适配产品尺寸,才可能实现有效融合。

国内商业化现状与挑战: 国内大模型C端产品(对话机器人、多模态APP)多免费,流量表现好,部分产品月活达数千万。与海外收费模式相比,国内存在低留存与低付费转化率问题:30日留存率3%-6%,付费转化率约3%-5%,反映用户习惯免费服务。可行商业化路径需聚焦用户痛点,如通过专项场景提升付费意愿。某创业产品开发AI陪玩对话系统,除对话外还能与用户游戏、分析战况等,增强陪伴体验;另有产品提供明星或虚拟人物情感陪伴服务,以专项功能吸引付费。单纯通用对话系统,因不符国内消费习惯,难商业化变现。

7、未来技术突破与产品展望

2025 - 2026年技术发展路径: 2025年,大模型行业关键技术突破与产品形态着重围绕Agent发力。2026年,MCP概念将逐渐普及,可解决当前Agent链路中数据输入输出的连接问题,后续会发展MCP架构,在通用协议中做更稳定、标准化的扩展,以降低生态内工具集成成本。端侧设备模型轻量化是重点发展方向,目标是缩小模型尺寸与计算时间成本,在现有架构上降本增效,适配单车等设备部署,虽2026年未必完全实现,但仍是重要突破方向。自监督模型强化也是关键领域,当前自监督模型依赖人工数据标注,未来需探索技术路线实现自我增强与学习。若无法突破,大模型上限将停留在人类文明当前极限;要达成超越人工智能(ASI)的里程碑,必须实现自监督模型的自我突破与强化学习。

Q&A

Q:目前国内通用大模型与海外头部大模型的差距有多大?具体体现在哪些方面?

A:国内通用大模型与海外头部大模型的差距主要体现在四方面:一是架构层面,国内大模型多基于海外提出的Transformer MOE、强化学习+人类辅助等已有架构追赶,缺乏自研突破性架构;二是算力层面,微软、谷歌、Meta等海外AI巨头的GPU算力较国内大厂多一个量级,受中美贸易战及资源输出限制;三是模型上限层面,国内模型侧重推理成本控制与性价比,海外模型追求顶级极限,国内难以布局导致上限差距;四是应用全面性层面,国内模型整合性较强,但缺乏主导全球市场的杀手级应用,覆盖全面性待提升。国内大模型的优势在于数据获取,欧美数据审核严格,国内大模型训练数据法律限制较少。

Q:国内主要大厂在开源生态建设方面的最新进展及布局有哪些?阿里等国内部分大模型开源认可度较高的原因是什么?

A:国内主要大厂在开源生态建设上多采用不完全开源路线,仅开放模型权重、部分代码或训练数据,核心技术因涉及C端商业化产品的技术壁垒而保留。阿里则采取全开源策略,开放模型权重、代码及训练数据,主要目的是提升影响力并通过开源模型整合自身云服务及基础设施,形成闭环生态。阿里等国内部分大模型开源认可度较高的原因包括:全开源模式下用户可获取完整技术细节;提供不同参数版本适配企业或个体的资源差异;开源后用户可复现模型在LLM Arena等测试集上的打榜成果,验证模型实际性能。

Q:目前国内互联网大厂的多模态布局最新情况如何?在图片生成、视频生成及剪辑等特定领域有哪些进展?后续有哪些看点?如何评价相关模型的能力?

A:国内互联网大厂多模态布局已成共识,各厂进展及特点如下:阿里布局全模态,天工GL、OMI、通义万象实现多模态融合,千问大模型在音频/音乐理解上表现突出,为理解生产一体化奠基;快手以可灵模型为核心,具备文生视频、图生视频基础功能,新增视频音效生成,并布局音乐生成以完善链路;腾讯混元模型功能与可灵类似,部分开源且推出国内较少的3D生成大模型;百度依托数据积累,聚焦数字人、可控视频生成及剧本内容等垂类应用;字节豆包覆盖语音、音乐、图片、视频生成,下游产品链路完善,用户使用优势显著;此外,爱施科技、智谱等企业聚焦图片、视觉、动画生成等垂类领域。后续看点包括多模态理解能力深化、生成链路完善及垂类应用拓展。模型能力方面,国产模型优势在于训练数据聚焦国内场景,生成内容更贴合国人需求,且性价比高;差距体现在通用泛化性弱于海外模型,长文本理解、通用Prompt控制准确率及边缘案例处理能力仍有不足。

Q:短剧内容与AI剪辑工具融合后,AI剪辑功能的具体体现有哪些?相关厂商的落地进展及效果如何?

A:生成与编辑是两个不同方向,早期专注模型开发的厂商侧重提升生成质量,追赶难度较大的厂商则转向编辑功能开发。国内视频生成领域主要由科林、胡言等厂商主导;在编辑功能落地方面,字节通过剪映应用部署了相关技术,但该功能并非基于大模型驱动,更多作为视频生成后的后置处理环节,与生成赛道存在显著差异。

Q:海外一键生成短剧或剧本内容的AI视频动模态工具预计何时问世?除后置剪辑工具外,单纯视频剧本生成工具可能何时出现?

A:剧本生成是视频生成相关模型开发的组成部分。当前面向C端用户的订阅产品主要依赖用户自主使用prompt或参考图片。剧本大模型未来将与agent链路结合,其终极形态需整合分镜、运镜、故事发展等细节,拆分片段后由视频生成模型整合输出短剧或长电影。目前此类模型在C端应用尚未普及。

Q:基于剧本生成方向,使用剧本大模型落地的国内厂商中,哪些发展较为领先?

A:部分信息涉及机密不便透露,且当前处于内部研究阶段,在正式推出整合agent前难以全面评估。但从市场观察来看,可灵与奇梦已开展较为成熟的系统研究。

Q:后续MOE架构可能有哪些升级?升级过程中会遇到哪些难点?

A:MOE区别于常用的Transformer,其通过入口管控区域将输入分配至对应专家系统,避免激活整个模型参数。当前MOE处于早期阶段,主要升级方向及难点包括:一是提升入口分层精准性,当前分配系统精准度不足,需优化以确保输入准确分配至对应专家系统;二是优化专家系统设计与结构差异化,当前专家系统规模相同,但通用模型中不同功能的专家系统规模应差异化;三是改善训练稳定性,存在部分专家系统训练不足或任务过载问题,需优化推理架构中专家内存分布,减少专家间差异,维持系统一致性与通用性。

Q:降低国内模型幻觉率需要在刚提到的哪些维度上进行升级?预计到2026年窗口通用大模型在幻觉率上可能达到何种水平?

A:幻觉率降低与MOE系统的三个优化维度有一定关联,但当前主流研究更聚焦于数据和训练环节。核心方法是通过训练使模型明确自身未知领域,提前终止幻觉内容输出,Meta、OpenAI等机构已发表相关研究成果。

Q:通过训练让模型诚实面对未知信息以降低幻觉的方式下,国产模型后续的幻觉率可能降至何种水平?是否有可量化的数据?

A:幻觉率难以量化,因不同模型、需求及语言模型应用场景的差异会导致幻觉率表现不同。但预计2026年第二季度前将形成成熟的幻觉降低体系。

Q:如何评价当前大模型生意的经济性?后续从模型产出角度是否仍为较赚钱的生意?利润率将如何评估?

A:自2023年中旬起,大模型API及C端定价持续下降,主要受三方面因素驱动:一是2023年大量企业投入大模型预训练导致国内GPU算力稀缺,2024年中期部分厂商放弃训练后释放闲置算力,推动算力成本下降;二是2024年起技术路线成熟,云加速优化等技术应用大幅降低GPU运算需求;三是部分模型效果较差的厂商为抢占市场,采取成本价甚至低于成本价定价策略。尽管行业存在低价竞争的不良现象,但随着模型架构熟悉度提升、提效手段增多及资源获取便利性增强,大模型成本转化率持续提高,当前成本下降幅度超过用户付费率调低幅度,企业收入呈现正向增长。从业务模式看,C端以订阅制为主,模式较单纯;B端API市场则较为混乱,语言、视频、音频等生成类API被下游小厂转接为C端产品出售,利用信息差赚取差价,虽增加用户选择便利性,但会推高大厂运营推广成本,不利于基模训练厂商发展。

Q:当前国内大模型厂商的市场竞争格局如何?未来3年左右的核心竞争差异点可能体现在哪些方面?

A:当前头部大模型厂商的竞争格局主要由差异化布局驱动。字节依托独占基础模型优势,在推进C端商业化的同时,通过模型迭代、数据增量及SFT精选数据微调等方式加固技术壁垒,目标是打造更快、更好、更便宜的模型以吸引用户;阿里在商业化营收不足的情况下,聚焦开源策略,通过开源模型连接自身算力及云服务平台生态实现盈利;百度依托早期基础和布局,侧重B端技术落地与整合,不参与开源和C端竞争,商业模式更聚焦B端;部分因资源投入不足追赶不及的厂商则转向应用开发,并将此前的模型架构和细节开源作为变通路线。未来核心竞争差异点将集中于各厂商的差异化布局方向,包括C端商业化与技术壁垒构建、开源与云生态绑定、B端技术整合能力,以及追赶不及厂商转向应用开发的转型路径。

Q:未来国内大模型在工具使用方面的提升将呈现怎样的进展?

A:国内大模型工具使用能力的提升主要分为两部分:一是agent方向,其核心在于通过链路整合,结合用户需求理解、工具调用及模型能力,生成完整系统,例如快手早期整合视频生成与音效/音频生成工具的案例;二是MCP方向,当前A群在今年发展相对成熟,预计明年将重点转向NCP部分的优化。

Q:国内与海外在多模态商业化落地方面的进展及差距情况如何?

A:海外多模态商业化落地具有早期先发优势,技术壁垒与产品交互体验更优。以音乐生成领域为例,海外头部模型Suno在效果、用户量及月收入上领先国内头部产品一个量级,用户量及月收入约为国内产品的10倍。视频与图片生成领域因市场规模更大、参与厂商更多,国内外整体量级差距比音乐领域更大,但厂商一对一对比的差距小于音乐领域的一家独大情况。

Q:除视频生成外,3D生成未来的商业化进展节奏如何?

A:国内3D生成领域发展尚处新兴阶段,参与厂商较少。近期岳飞团队发布了3D世界生成模型,当前下游应用主要集中在VR场景生成方向,其他明确的下游应用方向尚未形成。此外,3D生成在数据处理、爬取、存储及模型训练的成本均高于视频、音频或图片生成,导致整体发展相对缓慢。

Q:端侧AI领域大模型与机器人、眼镜等端侧设备的融合节奏当前进展如何?

A:端侧AI领域大模型与机器人、眼镜等设备的融合是今年行业重点讨论的热点话题,但当前技术仍面临挑战,核心难点在于模型的运算与部署。若将模型部署在设备端,虽能保证快速响应的用户体验,但存在设备成本难降低、重量与续航受限等问题,即使部署轻量模型也需大量调整且效果未必达标;若部署在云端,虽可降低设备成本与重量,但互动性与延时性不如设备端,且网络不佳时用户体验较差。未来需通过技术突破缩小模型训练框架以适配产品层面,才可能实现有效融合。

Q:端侧部署的应用预计何时能看到厂商推出的较成熟产品?

A:端侧部署的较成熟产品可能优先出现在眼镜或头戴式装备领域,尤其是运动系列产品。当前此类设备已支持连接Spotify等流媒体平台进行音频或语音播客互动,未来将进一步发展为根据运动节奏生成音乐或聊天内容的功能。

Q:国内大厂后续对外基金产品的月活、留存及商业模式升级付费转化路径是否可行?若不可行,烧钱窗口将持续多久?

A:国内用户习惯免费使用相关服务,此前尝试收费效果不佳,30日留存率仅3%-6%,付费转化率仅3%-5%。可行路径需聚焦用户痛点,加入情感陪伴或陪伴要素,而单纯对话系统因国内消费习惯较难实现商业化变现。

Q:2026年及未来一到两年,大模型行业在技术路径与产品形态上,继多模态与安全之后的关键技术突破点及可能的产品形态是什么?

A:大模型行业后续关键技术突破点及产品形态主要聚焦三方面:一是MCP架构发展,2026年将重点推进MCP架构的稳定化与标准化扩展,降低生态工具集成成本;二是端侧设备算力优化,目标通过技术突破大幅缩小模型尺寸与计算时间成本,实现现有架构降本增效并支持单车设备部署;三是自监督模型强化,需突破依赖人工数据标注的局限,实现模型自我迭代与学习,以突破大模型上限并向超越人工智能进阶。

来源:全产业链研究一点号

相关推荐