阶跃星辰再拿多模态榜首,全方位升级发布六款模型

B站影视 2025-01-22 17:15 2

摘要:月之暗面发布了全新的多模态图片理解模型 moonshot-v1-vision-preview;MiniMax 开源了基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01;生数科技上新了视频大模型 Vidu 2.0;

作者|朱可轩

编辑|陈彩娴

春节将近,各家厂商似乎都在争取休假前的最后一博,此时步入 2025 年也才半月有余,大模型玩家们已然卷上了新高度。

先是 OpenAI 打响了开年第一“枪”,ChatGPT 上线了新功能“Tasks”,主打提升了任务执行能力,之后国内一众厂商也先后发布了自家成果——

月之暗面发布了全新的多模态图片理解模型 moonshot-v1-vision-preview;MiniMax 开源了基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01;生数科技上新了视频大模型 Vidu 2.0;

接着,智谱 AI 推出了端到端多模态大模型 GLM-RealTime;面壁智能带来了端侧多模态模型 MiniCPM-o 2.6;DeepSeek 开源了 DeepSeek-R1 推理模型......

刚开年,模型更新便多到让人眼花缭乱,当中也不难发现,多模态、推理和端侧依旧是今年各家寻求突破的重点方向。

不得不提的是,在这一各厂商密集上新的“黄金节点”,AI 科技评论关注到,阶跃星辰一周内竟一口气批量更新了 6 款模型,全方位涵盖语言、语音、推理、图片理解、视频生成等多类别。

阶跃的更新速度在国内大模型厂商中可以说是非常少见,自 1 月 16 日开始,撇开周末双休,阶跃这波几乎一天一更,主打保质超量完成任务。

最为值得一提的是,多模态领域其实一直都是阶跃的舒适区,其去年就已经发布了 8 款相关模型,且在多个业内权威榜单中拿下国内第一。

在此次模型上新中,阶跃也继续带来了多模态基座模型的新成果——多模态 Step-1o 系列推出多模态理解模型 Step-1o vision、语音模型 Steo-1o Audio 升级,视频生成模型 Step-Video 升级至 V2 版。

值得关注的是,阶跃在多模态推理也已开始崭露头角,其正式发布了Step 系列的首款推理模型 Step Reasoner mini (简称“Step R-mini”),同时,正在推进视觉推理模型的研发,尝试将推理能力融入更多交互形态的大模型中。

除多模态外,阶跃的语言模型能力也不可小觑,文字创作一直是阶跃旗下模型的一大优势所在,此次阶跃也同期发布了小模型 Step R-mini 和 Step-2 文学大师版,继续强化 Step-2 模型的创作能力。

2025 年的模型之战已然打响,而阶跃在开年便已火力全开,在多模态方面更是呈现出“卷王”之姿,迅速与其他厂商拉开了差距。

多模态「卷」王之王

多模态是阶跃一直以来在持续发力的重点方向,也是阶跃的优势所在,去年成立以来,阶跃便已在多模态领域推出了 8 款大模型:

包括 Step-1V、Step-1.5V 两款多模态大模型;Step-1X 图像生成大模型;Step-1.5v-turbo 视频理解模型和 Step-Video 视频生成模型;三款语音大模型——Step-tts-mini 语音复刻和生成大模型、Step-asr 语音识别大模型和 Step-1o Audio 语音大模型。

近日,阶跃更新了多模态 Step-1o 系列成果,值得一提的是,Step-1o 也在国内权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测实时榜单中拿下了第一:

说回新成果,首先,阶跃在 Step-1o Audio 的基础上带来了升级,这款国内首个千亿参数端到端语音大模型距离首发刚过去一个多月,阶跃便又迅速迭代了新版本,较之上一版实现了更低延迟,声音也更为自然。

在通话过程中,Step-1o Audio 升级版不仅能感知理解情绪,还能结合语境,深度理解情感需求,提供最佳回应:

在向其吐槽生活中琐碎的事情如“开了一天车感觉很累”,她能在夸奖我们“真能干”的同时给出诸如“喝口水、吃点东西补充能量”的建议,再如围绕“最近接单很多,感觉腰很酸痛”这一问题,她也能一边感叹生意红火,一边建议我们要注意身体,记得去医院看看,人情味满满。

此外,升级版也已支持多语种和多方言的对话,并能在中英交流中达到“同传”。

不止是语音,视觉方向也一并实现了焕新升级。

阶跃同期推出了 Step-1o Vision 多模态模型,作为 Step-1o 的视觉版本,与 Step-1V 和 Step-1.5V 两款更早版本的视觉理解模型相比,实现了模型架构升级,并在在视觉识别、感知、指令跟随、推理等任务上实现大幅提升,拥有了更强的视觉性能。

此前,在 LMSYS Org 发布的大模型竞技场 Chatbot Arena 榜单中,Step-1V 便已位列视觉领域国内大模型第一,总分同 Gemini-1.5-Flash-8B-Exp-0827 持平。

这次升级版的 Step-1o Vision 又一战成名,刚刚发布便在 1 月 20 日 LMSYS Org 最新榜单中,拿下了国内视觉领域大模型第一,超过所有国内大模型厂商,保持住了在多模态领域的领先地位。

LMSYS Org 网址:https://lmarena.ai/

据阶跃官方介绍,Step-1o Vision 能够更准确地识别图像内容,不管是复杂场景还是相似图片都能轻松识别,甚至能精确识别图中的多种语言。

此外,Step-1o Vision 不仅能看懂图片,还能根据图片内容进行推理、辅助答题、激发灵感:

同 Step-1.5v 相比,Step-1o Vision 所关注到的细节也更多:

图源阶跃星辰

值得一提的是,在推理模型的研发上,阶跃也正在融入其所擅长的多模态,多模态推理在此次上新中崭露头角,其重磅推出了 Step 系列首款推理模型 Step R-mini,这同时也意味着阶跃成为目前基座模型最全的公司之一。

根据阶跃方面数据显示,Step R-mini 不仅在 AIME 和 Math 等数学基准测试上,成绩超过了 o1-preview,比肩 OpenAI o1-mini,在 LiveCodeBench 代码任务上,也比 o1-preview 效果更佳。

从具体效果上来看,Step R-mini 既擅长主动进行规划、尝试和反思,又能通过慢思考和反复验证的逻辑机制提供准确可靠的回复。

同时,其最鲜明的亮点在于,已经通过大规模强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”,既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。

在实际应用中,只会做数理题的模型其实是很难实现推广落地的,而只有做到“文理双修”,模型才能在具备较强推理逻辑能力和数理能力的同时,拥有更通用任务的解决能力,如此进一步提升可用性。

语言推理模型外,阶跃也在推进视觉推理模型的研发。

其试图将推理能力融入更多交互形态的大模型中,针对复杂视觉场景下的 Reasoning 问题,引入慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。据 AI 科技评论了解,这一模型的正式版本将在今年上线。

除了前所述三款模型,阶跃此番针对 Step-Video 视频生成模型也进行了升级,推出 Step-Video V2 版本。

Step-Video 是阶跃在去年 11 月上新的模型,此次发布的V2版本在复杂运动、美感、简单文字生成、中英双语输入和镜头语言方面具备更强的生成能力。

AI 科技评论也对此进行了一波实测——

我们发现,在输入“小男孩变身毒液”后,Step-Video V2 能自动一键润色出细节更丰富的内容,并补充暗色调、模糊背景等环境描写,自然将这部分融入视频场景中:

同时,对于镜头语言也进行了增添,自动帮我们决定了以“特写镜头”展现,有效提升了视频的叙事能力。此外,画面中的小男孩形象逼真,一整套变身过程也非常流畅、自然。

此外,Step-Video V2 也支持中英双语输入,在进行复杂运动展现这方面也能轻松驾驭。

值得一提的是,生成内容的美感也是阶跃一直在聚焦突破的方向,这一点从其前面推出的 Step-2 文学大师版也同样能窥见,而 AI 生成视频的美学素养也是很多现有模型还无法兼具的,对此,我们也在跃问视频中进行测试:

以中华传统文化的展现为例,我们向跃问输入了“身着传统服饰、打着伞的女子”“灯笼背景”的提示词,其能自动润色出“穿着一袭红色的旗袍,上面绣着精致的花纹,手持一把纸伞,伞面是白色的,上面绘有水墨画,与她的服饰相得益彰。”这些带有中国风特色元素的内容。

所生成的视频整个画面色彩很协调,当中融入了中国红作为主色调,背景的灯笼也并非死板的单一色彩,并能隐约看到布景中的水墨画,此外,对于提示词中提到的“带有精致花纹的红旗袍”“印有水墨画的伞”这些细节也能够覆盖还原到。(前述完整测试视频见:https://mp.weixin.qq.com/s/UWHM38XoXM13IK-Sf9wY6A)

「文学素养」领先行业

多模态模型俨然成为阶跃的拿手好戏,但其自研的语言模型实力也同样不容忽视。

去年 3 月,成立之初的阶跃发布万亿参数语言大模型 Step-2 一鸣惊人。而 Step-2 作为国内首个由创业公司发布的万亿参数大模型,直观体现了 Scaling Law 定律的红利。

在阶跃看来,对于语言模型而言,Scaling Law 是重中之重,而模型容量、训练数据量是模型语言、文字功底的基石,模型小、预训练数据量小无法实现智能涌现,亦无法把握文字。

Step-2 也曾多次在 LiveBench 等国际权威榜单上位列国产大模型第一。

去年11月,在 LiveBench 的多项测评标准中,Step-2 在 IF Average(指令跟随)的表现上以 86.57 的分数排在第一,超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。

这一指标主要衡量模型对语言生成细节的控制力,而这点在文字创作上的表现尤为显著。在生成高质量、有创意的文字内容的同时,Step-2 模型是能够根据用户的指令对文本进行精确调整和优化的。

此次,在 Step-2 的基础上,阶跃又带来了性价比和商用性更高的 Step-2mini 语言模型和精于创作的 Step-2 文学大师版。

据阶跃官方介绍,和万亿参数大模型 Step-2 相比较,Step-2mini 以 3% 左右的参数量保有了其 80% 以上的模型性能。

同时,Step-2mini 还拥有更快的生成速度和极高的性价比——在输入4000tokens的情况下,Step-2mini 的平均首字时延仅 0.17 秒,输入 1 元/百万 token;输出 2 元/百万 token。

从底层技术上来看,Step-2mini 采用了阶跃和清华团队在《Multi-matrix Factorization Attention》中提出,其自主研发的新型注意力机制架构——MFA(Multi-matrixFactorizationAttention,多矩阵分解注意力)及其变体 MFA-Key-Reuse。

论文链接:https://arxiv.org/abs/2412.19255

此前在 LLM 推理阶段,传统注意力机制存在着 KV 缓存随着批处理大小和序列长度线性增长的情况,这不仅使得内存占用大,推理效率也并不高,常用的 MHA(Multi-HeadAttention,多头注意力)也一直在尝试解决这一问题,但其存在性能和资源消耗间的平衡难题。

MFA 则针对前述问题给出了解法,相比于 MHA 架构,MFA 节省了近 94% 的 KV 缓存开销,拥有更快的推理速度,并大幅降低了推理成本。换言之,MFA 在不增加额外工程复杂度的前提下,解决了大语言模型高效推理的显存瓶颈问题。

Step-2 文学大师版则是阶跃专为创作场景研发的语言模型,沿袭了 Step-2 广袤的知识储备以及对文字强大的细节把控能力,同时也有着更为强大的内容创作能力。

此前,用大模型辅助创作的内容就经常会被吐槽一眼 AI,创作出来的内容往往缺乏锐度和新意,没有真情实感和对社会事件的描绘与思考,这本质上是模型过度对齐社会共识所致。

而好的内容创作模型则是需要充分理解用户创作需求的,逻辑严密、语言凝练、言之有物、节奏紧凑,并且拥有深刻思想和和独特风格,才是这类模型要达成的目标,Step-2 文学大师版的测试结果恰恰印证了这点:

例如,让跃问以明朝为背景创作第一人称悬疑小说,并融入《明书·太祖载记》的内容,带有天灾、地裂、克苏鲁等元素。其所创作出的内容确实有模有样,所有关键词无一遗漏,甚至对于天灾、地裂的描述衔接也十分流畅,在克苏鲁这一怪物形象的塑造上也很生动。科幻小说其也同样不在话下:

基模领域「六边形战士」

现如今,随着基座大模型玩家洗牌,竞争已进入更加白热化的下半场,一边是对 AGI 理想的坚持,一边是面对现实的妥协,部分厂商仍在摸索基座大模型的未来,另外一部分则在技术和产品间反复横跳,亦或是直接改变了方向。

阶跃则一直属于前者,从基座模型来看,阶跃其实也是国内为数不多已形成从理解到生成、从文本、多模态到推理全系列模型矩阵,并坚持预训练,继续冲击 AGI 的大模型创业公司之一。

自成立初起,阶跃便一直坚持认为——多模理解和生成的统一是通往 AGI 的必经之路,而模型的演化必然会经历单模->多模->世界模型三个阶段。

其技术发展也是沿着“单模态—多模态—多模理解和生成的统一—世界模型—AGI(通用人工智能)”这条路径一步步走来的。

当前,阶跃的多模态应用已经愈发广泛,并被业内多数开发者所认可,持续领跑行业:

例如,网红 AI 应用胃之书的开发者赵纯想就曾表示,通过 AB 测试发现,阶跃星辰的模型付费率最高,而 AI 心理疗愈应用林间疗愈室 CEO 李神龙也在接入阶跃的多模态理解大模型后,实现了用户付费率的提升。

而从整体上来看,无论是去年一月一更的 11 款基座大模型,还是今年一开年便加大攻势推出的 6 款模型,在如此厚积薄发下,阶跃的技术发展无疑已驶入快车道,而其低调务实的做派下也尽显追逐 AGI 的野心。

如今的阶跃星辰,无疑已经成为了基座模型领域的“六边形战士”。雷峰网雷峰网

来源:雷峰网

相关推荐