摘要:8 月的开源大模型圈堪称「神仙打架」——从通义千问、腾讯混元的高频更新,到小红书、美团的压轴入局,文生图、视频理解、医疗专用、端侧轻量化等各类模型密集亮相,连 OpenAI 都凑了波热闹。这些新模型里,既有能在手机端跑的 4B 小模型,也有 560B 参数的超
8 月的开源大模型圈堪称「神仙打 架」——从通义千问、腾讯混元的高频更新,到小红书、美团的压轴入局,文生图、视频理解、医疗专用、端侧轻量化等各类模型密集亮相,连 OpenAI 都凑了波热闹。这些新模型里,既有能在手机端跑的 4B 小模型,也有 560B 参数的超大模型;既能生成电影级数字人视频,还能给视频匹配音效。但哪些值得重点关注?它们的实际表现又如何?下面跟着答主 @刘聪NLP 的盘点,一文摸清 8 月开源大模型的「隐藏黑马」与核心亮点。
盘点 8 月开源大模型!哪些你还不知道?
答主:刘聪NLP
整个 8 月,大模型开源社区依旧很卷,除了很火的 Qwen-Image、GLM4.5V、MiniCPM-V 4.5、 DeepSeek-V3.1,还有很多其他的模型值得注意,比如小红书的 dots.vlm1、 书生 InternVL-3.5 系列模型、 万相 Wan2.2-S2V-14B,昨晚美团也是压轴开源 LongCat 模型。
一字卷~
8 月 1 日,问小白开源 XBai-o4, o4 代表第四代开源大模型技术,XBai-o4 在复杂推理能力方面表现出色,全面超越 OpenAI-o3-mini。模型大小 32B,基于 Qwen3-32B 增量训练的来。
8 月 4 日,腾讯混元开源 4 个尺寸的小模型,包括,0.5B、1.8B、4B、7B,对标 Qwen3 系列小模型, 腾讯 HunYuan 跟阿里 Qwen 在开源上干起来了?
8 月 4 日,通义千问开 源首款文生图模型 Qwen-Image,文本渲染能力十分出众,支持多行布局、段落级文本生成以及细粒度细节呈现。
8 月 4 日,小米开源音频大模型 MiDashengLM-7B,在多个关键音频理解任务上超越了 Qwen2.5-Omni-7B 和 Kimi-Audio-Instruct-7B。
8 月 6 日,OpenAI 开源 GPT-OSS 模型, 本来分享国内开源大模型不应该有 OSS,但毕竟是 OpenAI,还是尊重一手,但效果反正中文效果不太理想。GPT-OSS-20B 和Qwen3 30B-A3B,要选哪一个?实测对比告诉你!
8 月 6 日,小红书开源 dots.vlm1 模型,采用全自研的 12 亿参数 NaViT 视觉编码器和 DeepSeek V3 的大语言模型构建,在视觉的理解和推理任务上均有不俗的表现。
8 月 7 日,通义千问,又更新 Qwen3 的 4B 级别 Dense 小模型,Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507。
8 月 8 日,面壁智能开源 MiniCPM-V-4,4B 大小,能在手机、PC 等端侧丝滑、流畅的完成实时视频理解、图像理解等任务。
8月 11 日,百川开源最新 32B 的医疗领域模型 Baichuan-M2-32B,细节决定成败!深耕医疗的 Baichuan-M2 用了哪些黑科技。
8 月 11 日,智谱开源 GLM4.5-V 模型,总参数 106B,激活参数 12B,沿用 GLM-4.1V-Thinking 的结构,同时是混合推理模型,可通过「思考模式」开关选择快速响应或深度推理。智谱开源的 GLM4.5V 到底行不行?掏出祖传多模态理解测试。
8 月 12 日,上海人工智能实验室开源 Lumina-mGPT 2.0,一个仅使用解码器的自回归模型,统一了包括文生图、图像对生成、主体驱动生成、多轮图像编辑、可控生成等任务。
8 月 12 日,快手开源 8B 推理模型 Klear-Reasoner-8B。
8 月 13 日,阶跃开源定理证明模型 StepFun-Prover-Preview-32B。
8 月 14 日, 腾讯推出 Hunyuan-GameCraft,基于 HunyuanVideo 底模的高动态交互式游戏视频生成框架,输入一张图 + 文字描述+动作指令就能输出高清动态游戏视频。
8 月 18 日,阶跃开源 NextStep-1 系列模型,一个 14B 自回归模型,一个图像生成和编辑模型。
8 月 19 日,通义千问开源图像编辑模型 Qwen-Image-Edit,基于 20B Qwen-Image 模型构建,扩展了 Qwen-Image 的文本渲染能力至图像编辑任务,支持精确的文本编辑。
8 月 20 日,DeepSeek-V3.1 开源,代码能力提高,但文本能力并没提高,甚至有些下降。DeepSeek 更新版本 v3.1,有效果提升吗?附实测对比
8 月 21 日,字节开源 Seed-OSS 模型,大小为 36B,但没有专门训练中文。字节开源 Seed-OSS 模型,36B 的理想尺寸,但中文好像不行。
8 月 23 日,上海人工智能实验室推出了 Intern-S1 的轻量化版本 Intern-S1-mini,8B 大小,在科学任务上效果出众。
8 月 26 日,面壁开源 MiniCPM-V 4.5 模型,8B 大小,主打高刷视频理解。最强开源 8B 级 VLM 模型!高刷视频理解的有救了~
8 月 26 日,上海人工智能实验室开源书生 InternVL-3.5 系列模型,共 9 个模型,Dense 模型有 1B、2B、4B、8B、14B、38B,MoE 模型有 InternVL3.5-20B-A4B、InternVL3.5-30B-A3B InternViT-300M、InternVL3.5-241B-A28B。
8 月 26 日,通义万相开源 Wan2.2-S2V-14B 模型,一个音频驱动的 14B 视频模型,仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。
8 月 28 日,腾讯混元宣布开源端到端视频音效生成模型 HunyuanVideo-Foley,只需输入视频和文字,就能为视频匹配电影级音效。
8 月 28 日,字节开源 USO 模型,一个统一的风格和主体驱动图片生成框架。
8 月 31 日,美团开源 LongCat 模型,一个 560B 参数的 MoE 模型,模型采用动态计算机制,可根据上下文需求激活 18.6B∼31.3B 参数。
这个 LongCat 蛮有意思的,我还在评测中,敬请期待!
来源:小镇评论家