摘要:当前AI正以指数级速度重塑全球科技格局,大模型作为核心驱动力持续突破认知边界。从Deepseek的爆火到各家新模型的陆续发布,AI领域的竞争已进入白热化阶段。本文针对国内外主流AI大模型的特点、优劣势及最新进展进行梳理。(文末附各AI大模型对比表格)
当前AI正以指数级速度重塑全球科技格局,大模型作为核心驱动力持续突破认知边界。从Deepseek的爆火到各家新模型的陆续发布,AI领域的竞争已进入白热化阶段。本文针对国内外主流AI大模型的特点、优劣势及最新进展进行梳理。(文末附各AI大模型对比表格)
- 文章信息 -
本文由e-works研究院孙雅量原创发布。
本文针对国内外主流AI大模型的特点、优劣势及最新进展进行梳理,包括OpenAI GPT-4、o3-mini、Sora、Googel Gemini 2.0、Anthropic Claude 3.5、xAI Grok-2、Meta Llama 3.3、Mistral AI Le Chat、Deepseek R1/V3、阿里Qwen2.5、字节豆包1.5Pro、腾讯混元、百度文心4.0、讯飞星火、月之暗面Kimi、智谱GLM-4、昆仑万维天工4.0、百川智能Baichuan系列、MiniMax01系列、零一万物Yi系列、阶跃星辰Step系列,把握AI大模型的发展趋势。(文末附各AI大模型对比表格)
01
国际主流AI大模型
国外AI大模型竞争依旧激烈且创新持续不断。OpenAI、谷歌、Meta、Anthropic等科技公司持续推出新模型及不同功能版本,持续引领潮流。GPT-4o在多模态融合上表现出色;谷歌Gemini系列推出不同版本,满足从移动端到数据中心的多元需求;Meta Llama3开源激发了全球开发者热情;Anthropic Claude、xAI Grok等也各有亮点。
01
OpenAI—GPT-4系列
GPT-4系列是OpenAI开发的AI大模型,不仅能处理文本还能接收图像作为输入,拥有超过1万亿甚至达到1.8万亿个参数,采用Transformer模型架构和混合专家等技术,可处理多达128K个文本令牌,在自然语言处理任务上表现出色,如文本摘要、问答、情感分析、机器翻译等,还可用于文本生成、对话系统、语言翻译、教育、数据分析。GPT-4o mini是GPT-4的精简版,适用于简单但需大量处理、更注重响应速度的任务。
GPT-4系列的优势在于能精准理解复杂的语言结构与语义关系,可接收图像和音频等多种模态输入并生成文本输出,还具备出色的图像描述能力,而且在专业知识方面表现突出,在文本创作、数据分析、艺术创作等方面有较多应用。劣势是仍会出现判断失误和“机器幻觉”,编造不存在的内容,比如医疗手术决策、法律审判等不能完全依赖它进行最终判断,在数学推理方面也有明显短板。
近期OpenAI宣布将推出新语言模型GPT-4.5,代号为“Orion”。OpenAI还计划在未来几个月内推出全新语言模型GPT-5。GPT-4.5是GPT-4的增强版本,是OpenAI最后一个非思维链模型。GPT-4.5和未来的GPT-5将通过自然语言处理技术,提升具有多模态特性的生成式AI能力。
02
OpenAI—o3-mini
OpenAI的o3-mini是今年1月正式上线的AI推理精简版模型。采用最新的深度学习架构,在模型压缩和知识蒸馏等方面有重大突破。该模型支持函数调用、结构化输出、开发者消息等功能,还支持流式传输和联网搜索功能。其在数学、科学等STEM领域表现出色,还具备较强的多语言处理能力。o3-mini目前支持三种推理强度(低-low、中-medium、高-high),分别对应了不同的速度和准确度。
o3-mini的优势在于成本较低,推理速度快,平均响应时间比前一代模型快24%。而且推理能力出色,处理生物及数学类复杂问题的能力强,能支持函数调用并集成了搜索功能,可提供最新答案和网络链接。其劣势是在博士级科学问题基准测试中表现欠佳,且不支持视觉功能。
近期,OpenAI面向所有用户更新o3-mini的思维链,展示了模型的推理步骤以及所得出答案的方式。目前免费用户首次可以体验一个有限速率的o3-mini版本,Plus用户可选择o3-mini-high版本,Pro用户可无限使用。此外,2月3日OpenAI还推出了名为“Deep Research”的功能,旨在将推理大模型的思考能力应用于联网搜索,使其能够在数十分钟内完成通常需要人类专家数小时才能完成的复杂研究任务。OpenAI计划在本月内将Deep Research推向移动和桌面App端。
图1 OpenAI上线Deep research功能(来源OpenAI)
03
OpenAI—Sora
OpenAI的Sora模型是去年12月推出的首个文本生成视频模型。它继承了Dall・E-3的画质和遵循指令能力,能根据用户文本提示快速制作长达一分钟的高保真视频,也可获取静态图像生成视频,还能对现有视频进行扩展或填充缺失帧。Sora可以生成带有动态摄像机运动的视频,能有效为短期和长期依赖关系建模,可模拟影响世界状态的行为和数字世界。作为扩散模型,它从类似静态噪声的视频开始逐步去除噪声来生成视频,采用高度可扩展的Transformer架构、多帧预测生成技术等,还应用了DALL・E 3的“重述提示词” 技术。但它也存在一些局限性,如难以准确模拟复杂场景物理原理、可能无法理解因果关系等。
Sora模型的优势在于可生成长达60秒的视频,能在保持主体一致的情况下实现多角度镜头无缝切换,画面干净流畅,且能对视频进行扩展合并,也可对静态图片进行动画处理。劣势是存在物理交互模拟不准确的情况,会出现对象突然出现等时空连续性问题,生成视频中的物体在运动过程中可能会有形变、失真等不稳定现象,且生成的视频中还常出现文字乱码的问题。
目前,Sora模型正在开放图像生成功能的内测,会增加一个隐藏切换按钮,方便用户快速切换视频与图像生成模式。除了图像生成功能的改进,Sora还对其视频推送进行了重新分类。新推出的 “Best” 和 “Top” 类别将帮助用户更好地筛选和查找内容。“Best” 类别与目前的特色频道类似,而 “Top” 类别则可能根据用户点赞数或时间段对视频进行排名。
图2 Sora内测图像生成功能(来源OpenAI)
04
Google—Gemini 2.0系列
Gemini 2.0系列是谷歌目前最新的AI大模型,包含Flash、Flash-Lite和Pro三大版本。其中,Gemini 2.0 Flash定位“高效工作模型”,具备超强计算效率,适合处理高并发、高频率任务;Gemini 2.0 Pro版本编码能力突出,能“一口气”读超大文本、海量数据;Flash-Lite作为全新高性价比版本,专攻大规模文本生成场景。
图3 Gemini 2.0系列模型(来源:Google)
Gemini 2.0系列的优势在于具备多模态交互能力,能对图像、文本等多种信息进行处理和理解,在复杂推理、知识理解和文本生成等方面表现出色。其劣势主要体现在某些特定领域及场景,比如生成人物图像存在偏差、完整代码生成能力有待提升。
目前,Gemini 2.0系列已通过Gemini API在Google AI Studio和Vertex AI平台开放使用。Gemini 2.0 Flash能够支持100万Tokens上下文窗口,Gemini 2.0 Pro实验版本能够支持200万个tokens上下文窗口,可调用第三方工具,比如执行代码,连通Google Search检索世界知识。该系列模型在多项基准测试中较1.5版本性能显著提升,在Chatbot Arena LLM Leaderboard的最新排名中,Gemini 2.0系列全部跻身前10。
图4 Chatbot Arena LLM Leaderboard最新排名
Gemini 2.0系列全部跻身前10
05
Anthropic—Claude 3.5
Anthropic公司目前最新的大模型主要有Claude 3.5 Haiku、Claude 3.5 Sonnet。Claude 3.5 Haiku采用“Unstructured Generalization”算法,处理非结构化数据更有效,适合开发用户产品、处理子智能体任务;Claude 3.5 Sonnet是当前较强的视觉模型,在视觉推理、图文融合、物体识别、视觉问答等视觉任务方面表现出色。
Claude 3.5的优势在于具备很强的语言理解和生成能力,能够输出逻辑连贯、内容丰富的文本,在处理复杂的自然语言任务如文本摘要、对话交互等方面表现出色,还能根据不同的场景和需求提供合适的回答。其劣势主要是在处理一些专业问题时不够精准、处理多模态视觉任务方面表现欠佳。
Anthropic将会在今年发布其最新模型Claude 4,进而带来一系列重大改进。首先,其推理能力将大幅提升,甚至有望超越目前公认的强劲对手OpenAI的“满血”o3。此外,Claude 4还将配备更强大的多语言支持和更广泛的应用场景。这意味着它将能够更好地服务于全球用户,打破语言和文化的障碍。除Claude 4外,Anthropic还将推出新的推理模型,其评分全面超越现有的o3模型。
06
xAI—Grok-2
马斯克旗下的xAI公司目前的模型是Grok-2(包含标准版、mini版),采用混合专家架构,不仅能处理文本信息,还能理解和生成视觉数据,在跨领域应用场景中优势明显,在视觉数学推理和基于文档的问答方面达到sota级别,在包括研究生水平的科学知识、常识、数学竞赛问题等多个学术基准测试中表现出色。
图5 xAI Grok模型的文生图功能(来源:xAI)
Grok-2模型的优势在于其多模态处理能力,能处理文本和视觉数据,能生成高质量代码和流畅文本,而且图像生成速度快,可用于文本信息的处理与生成。其劣势主要是图像生成方面存在短板,如“drawme”功能生成的人物图像易失真、对中文提示词有时会报错、难以处理复杂的编程项目。
xAI将在今年推出全新模型Grok-3。Grok-3模型在代码和创造力方面比Grok-2要好得多。其中代号为「chocolate」的版本是完整版,而另一个代号是「kiwi」的版本则是迷你版或者是量化的版本。Grok-3虽然尚未正式发布,但已经在独立平台和X平台上短暂现身,并开启了内部测试。根据测试结果,Grok-3在回答问题方面表现优异,甚至超越了当前流行的模型如o1和DeepSeek R1。
(最新消息,根据马斯克近日发推表示,Grok 3将于太平洋时间周一晚上8点发布也就是北京时间2月18日今天周二12点发布)
07
Meta—Llama 3.3
马克扎克伯格的Meta公司目前最强大的模型是Llama 3.1 405B,最新的是去年12月推出的开源大模型Llama 3.3,该模型采用优化的Transformer架构,多项测试效果及表现接近GPT-4o。Llama 3.3目前仅有70B这一种规模,适用于纯文本指令调整,并在数学、常识、指令遵循和应用程序使用等方面有所提升。在用于纯文本应用程序时,该模型能够提供比Llama 3.1 70B和Llama 3.2 90B更强的性能,甚至可以在部分领域与Llama 3.1 405B相当,而且Llama 3.3还具备更低的成本。
Llama 3.3模型的优势在于能快速处理海量数据,语言理解和生成能力较好,可生成自然流畅、逻辑合理的文本内容,且在多种语言任务中表现良好,可用于简单文本的处理与生成。其劣势是在一些专业领域的知识理解和推理上存在不足,在处理有歧义的语句或需要深入理解上下文的复杂自然语言方面表现不佳。
Meta计划将在今年发布全新的Llama 4模型,该模型正在由10万片H100 GPU组成的集群上进行训练,新版本将引入“新的模态”、“更强的推理能力”以及“更快的性能”。随着Llama 4模型的推出,Meta AI聊天机器人和其他AI功能将进一步优化,从而提升用户体验并推动平台的发展。
08
Mistral AI—Le Chat
Le Chat是法国AI初创公司Mistral AI发布的AI大模型,首次发布就登顶法国免费App榜首,引发行业震动。Le Chat是完全开源的应用,每秒可处理1100个token(约1000单词),比ChatGPT快13倍,图像生成能力超过DALLE,依托行业领先的视觉识别与OCR技术,对PDF、Excel、日志文件、复杂图片文档等内容高精度理解和解析,可同时支持iOS和Android,支持多领域对话、图像文档处理、网页信息检索、代码分析处理以及多语言交互。
图6 Mistral AI推出的Le Chat AI大模型(来源:Mistral AI)
2月13日,涂鸦智能宣布其涂鸦云开发者平台将率先集成Le Chat大模型,借助Le Chat在速度、开源性等方面的出色能力,为开发者提供撬动AI硬件市场的关键支点。除了Le Chat之外,涂鸦还集成了DeepSeek、OpenAI、Claude、Gemini等顶尖大模型,开发者仅需一套SDK,即可自定义选择接入不同大模型,实现音视频、图片、文字等能力的一站式整合。
图7 涂鸦云开发者平台集成Le Chat大模型(来源:涂鸦智能)
02
国内主流AI大模型
国内AI大模型发展态势同样强劲,呈现出百家争鸣的景象。Deepseek已成为国内AI的头部玩家,除此之外,百度、阿里、腾讯、字节等科技巨头也在持续发力,除了积极接入Deepseek,也纷纷推出了新模型;其他科技企业如智谱、百川、月之暗面等也各具特色,持续发力AI在不同领域的创新应用。
01
深度求索—Deepseek-R1/V3
Deepseek目前的模型有DeepSeek-R1、DeepSeek-V3,DeepSeek V3作为基础模型采用混合专家语言模型,基于14.8T tokens进行预训练,性能可与 GPT-4媲美;DeepSeek-R1是建立在V3基础上的推理模型经过深入的后训练,在推理能力方面表现出色,通过模型蒸馏将推理能力迁移至更小的模型,为端侧模型的推理能力提升提供了新的可能。
Deepseek的优势在于推理速度快,在数学计算、逻辑推理、编程方面能力突出,中文任务处理表现良好,且性价比很高。不过也存在一些劣势,比如接口服务稳定性欠佳,易出现卡顿和超时情况,上下文长度存在一定限制,并且无法直接处理图像等多模态数据、无法生成图像等。
DeepSeek-R1的发布引发了全球科技界的广泛关注,继英伟达、微软、亚马逊等美国科技公司宣布采用这一模型后,国内企业也紧随其后,纷纷接入DeepSeek。目前已有华为云、腾讯云、百度智能云、阿里云等云平台上线了DeepSeek的不同版本模型,为用户提供差异化部署方案;移动、联通、电信三大运营商近期宣布全面接入DeepSeek,并为其提供专属算力方案;此外,广汽、上汽、东风、吉利等多家车企接连宣布与DeepSeek深度融合,推动智能座舱、场景服务及用户交互体验的全面革新。
图8 近20家车企宣布接入Deepseek-R1大模型 (来源:NE时代)
02
阿里巴巴—Qwen2.5
Qwen2.5-Max和Qwen2.5-VL是阿里巴巴目前最新的AI大模型。Qwen2.5-Max采用超大规模混合专家架构,支持图文、音视频、3D模型跨模态理解,支持单次输入200万字文本,性能方面已超越DeepSeek V3、Llama-3.1-405B等模型;Qwen2.5-VL基于Vision Transformer架构,结合了SwiGLU和RMSNorm等技术,不仅擅长识别常见物体,还能够分析图像中的文本、图表、图标、图形和布局,与Qwen2.5语言模型无缝对接。
Qwen2.5的优势在于其自然语言处理能力较强,可多模态交互,能根据文本和图像输入处理和生成内容,而且在数学推理、编程等多项基准测试中表现出色。不过也存在一些劣势,如处理专业领域问题的回答深度不够、长文本处理的稳定性方面有待提升。
2月6日刚刚发布的Qwen2.5-Max模型在性能测试中表现优异,部分指标超越国际主流模型,在Chatbot Arena最新榜单中排名第7,超越了Deepseek-V3、o3-mini等模型。有消息称,李飞飞团队以不到50美元的云计算费用,基于阿里云Qwen2.5-32B-Instruct模型微调,训练出与DeepSeek R1性能相近的AI推理模型。
图9 Qwen2.5-Max在Chatbot Arena LLM Leaderboard排名第7
超越Deepseek-V3
03
字节跳动—豆包1.5Pro
字节最新发布的豆包1.5Pro模型采用大规模稀疏MoE架构,仅激活1/7参数即可达到等效于7倍激活参数的Dense模型性能,在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升,能有效提升视觉推理、文字文档识别、细粒度信息理解、指令遵循等方面的能力,在MMLU、GSM8K 等多项基准测试中超越GPT-4o与Claude 3.5 Sonnet。
图10 Doubao-1.5-pro 在多个基准上的测评结果
豆包1.5 Pro模型的优势显著,多模态能力强,视觉模型在图像理解方面表现出色,语音模型响应迅速、情绪表达自然,可用于文本生成、AI绘画、数学推理、语音对话、代码生成等场景。不过由于是新模型,在生态建设和与其他应用的整合方面还有待提升。
目前豆包1.5Pro已在豆包App灰度上线,开发者可在火山引擎直接调用API。同期上线的还有新版豆包视觉理解模型Doubao-1.5-vision-pro和豆包实时语音模型Doubao-1.5-realtime-voice-pro。Doubao-1.5-vision-pro进行了全面技术升级,增强了视觉推理等多方面能力,回复模式更精简友好。豆包实时语音模型在豆包App全量开放,实现端到端语音对话,具备低时延、可随时打断等特性,火山引擎将在上半年通过方舟平台推出对应API服务。此外,豆包大模型1.5 Pro宣称训练未使用其他模型生成的数据,且1.5全产品价格保持不变。
04
腾讯—混元大模型
腾讯的混元大模型系列包括混元Turbo、混元文生图开源模型等。混元Turbo作为腾讯云最新发布的旗舰级大模型,相较于前代,它在推理效率提高了100%,同时降低了50%的推理成本;混元文生图开源模型是首个中文原生的DiT架构模型,可用于图像生成、设计等领域。
腾讯混元大模型的优势在于核心能力强,具备多轮对话、内容创作、逻辑推理、知识增强、多模态等能力,训练和推理效率高,可用于图像及文本的生成。不过在处理复杂数学计算和编程任务的正确率方面有待提高,3D生成模型依赖预设模板,建模的精细度还有待进一步提升。
混元3D生成大模型2.0版本日前开源,3D AI创作引擎同步上线。与1.0版本相比,2.0版本在生成效果上得到显著提升,在几何结构上更加精细,纹理色彩更加丰富。在3D功能矩阵方面,创作引擎涵盖3D建模、编辑及驱动等能力,包括3D动画生成、3D纹理生成、3D人物生成、3D小游戏创作等。其中,3D动画生成可以支持骨骼绑定和动作驱动,选择不同动作模板即可让创作的角色模型轻松动起来,同时支持选择不同角色模型素材或上传本地模型生成3D动画。
图11 腾讯混元3D界面(来源:腾讯混元AI)
05
百度—文心大模型4.0
百度目前最新的AI大模型是文心大模型4.0Turbo,相较于文心大模型4.0 版本,Turbo版本在应答速度上有进一步提升,能更快速地响应用户的提问和指令,此外Turbo版本在检索方面的性能得到增强,可以更高效地从海量数据中检索出准确、相关的信息,并结合检索结果进行更精准的回答和分析。
文心大模型4.0能进行多模态交互,实现文本与图片创作,陪用户聊天,提供智能体服务,还能处理各种搜索需求,帮助用户快速获取信息并洞察数据趋势为决策提供支撑。不过在一些功能细节方面如文生图、逻辑推理能力方面还有待完善。
2月13日,百度宣布文心一言将从4月1日起全面免费,所有PC端和APP端用户均可体验文心系列最新模型。同时也将上线深度搜索功能,该功能也将于4月1日起免费开放使用。百度声称其深度搜索功能具备更强大的思考规划和使用外部工具能力,可为用户提供专家级内容回复,并处理多场景任务,实现多模态输入与输出。此外,百度将在今年发布全新版本的文心一言,以巩固在基础模型上的优势。
图12 百度宣布文心一言即将上线深度搜索功能(来源:百度)
06
科大讯飞—星火大模型
科大讯飞目前最新的AI大模型主要包括讯飞星火大模型4.0Turbo、讯飞星火深度推理模型X1。讯飞星火大模型4.0Turbo在数学能力、代码能力方面有出色表现,还具备语音视觉虚拟人交互 “三合一” 以及星火多语言大模型等。讯飞星火X1是深度推理模型,能在处理复杂问题时将其分步拆解并不断尝试不同方法并验证结果,以此优化解题策略,在数学计算、逻辑推理方面表现出色。
星火大模型能进行文本生成、语言理解、知识问答、逻辑推理、数学计算、代码编写,还支持多模态交互,可处理图文信息。但一些功能细节方面还需进一步完善,比如回答问题中途停止、文本重复等,在医疗、法律等专业领域方面,回答的专业度也有待提升。
1月15日,科大讯飞发布了其基于全国产算力训练的深度推理大模型X1。攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等技术难题,在中文数学能力上达到国内第一,能准确解答高考题、AIME竞赛题和高中奥赛题等并详细拆解思路步骤,以更少算力实现业界一流效果。该模型目前率先在教育领域落地,在一题多解、教学知识关联、拓展学生高阶思维等方面表现出色,还能让科大讯飞AI学习机的学习推荐和诊断更精准。在医疗领域,其专科辅助诊断和复杂病历内涵质控准确率达90%,科大讯飞宣称将于2025年上半年发布基于它的医疗大模型升级版。
图13 讯飞深度推理模型X1在数学计算方面表现出色
07
月之暗面—Kimi
月之暗面目前主要的大模型有Kimi Chat、k0-math、moonshot-v1系列。Kimi Chat以对话交互方式为C端用户服务,其最大的特点是长文本处理能力极为出色,可处理200万字的长文本,且具备联网搜索与指令遵循能力。k0-math专注于数学推理,采用强化学习和思维链推理技术,能模拟人脑思考和反思过程,大幅提升解决数学难题的能力。moonshot-v1系列有三个模型,分别适用于生成短文本、长文本和超长文本。
Kimi能进行长文总结与生成、数据处理、代码编写、语言翻译,可作为个人助理管理日程等,还能用于教育辅导、商务辅助、信息检索、旅行规划等众多场景。但在响应时间、多文档的同步处理能力、图片和文档解析等方面还需进一步提高。
1月20日,月之暗面宣布推出Kimi全新SOTA模型k1.5多模态思考模型,该模型在short - CoT模式下,数学、代码、视觉多模态和通用能力大幅超越全球短思考SOTA模型GPT - 4o与Claude 3.5 Sonnet,领先达550%,在long - CoT模式下,数学、代码、多模态推理能力达到长思考SOTA模型OpenAI o1正式版水平,其设计训练有关键要素,擅长深度推理,可应对多种难题,预览版将陆续灰度上线http://Kimi.com网站及最新版Kimi智能助手App。
图14 Kimi k1.5在数学、代码、视觉多模态和通用能力方面表现亮眼
08
智谱华章—GLM-4
GLM-4作为智谱全新推出的新一代基座大模型,在中文理解能力方面表现出色,无论是古典文学还是现代网络用语都能精准把握。GLM-4还支持128k的上下文窗口长度,能够处理超长文本,连贯地理解和回应复杂的对话与指令。能够调用网页浏览器,快速检索网络信息,还能调用代码解释器,高效完成各类编程任务,并且可以调用多模态文生图大模型,一键生成高质量的图像,实现从文本到图像的转换。
GLM-4大模型能进行多轮对话、提供智能推荐,可以处理128K长上下文文本,对长文本实现高精度召回,还能进行文生图创作,能通过代码解释器进行复杂计算,处理包括数据分析、图表绘制、PPT生成等文件处理任务。不过在上下文理解能力、数学逻辑推理方面还有待完善。
2月10日,智谱宣布其GLM-4V-Plus-0111 beta版本上线智谱BigModel开放平台。GLM-4V-Plus-0111 beta在前两代模型优势的基础上,通过引入原生可变分辨率等创新技术,进一步提升了模型性能,为用户带来更强大的视频理解能力。此外,新的视觉理解模型不仅保留了前两代模型的时间问答能力,还能够适应更多的视频长度和视频分辨率:在视频长度较小时,支持原生的高分辨率视频;在视频长度较长时,使用更小的分辨率,有效地捕捉模型的时间和空间中的信息。更新后的模型,支持2小时的长视频理解能力和更加精细的短视频理解能力。除此之外,模型还能对视频数据进行分类,取标题,打标签,用户可以通过自定义提示词,提升视频数据的处理效率或者构建自动化视频数据流程。
图15 模型性能对比(来源:智谱开放平台)
09
昆仑万维—天工大模型4.0
昆仑万维目前主要的AI大模型是天工大模型,以最新的4.0版本为例,包含o1版和4o版。其中,o1版具备中文逻辑推理能力,可处理数学解题、代码分析、逻辑思维、常识判断以及伦理决策等问题;4o版是自研的多模态模型,赋能了实时语音对话助手,具备情感理解与个性化记忆能力,可定制声音风格,还能支持多语言。
天工大模型4.0的优势在于可处理数学、代码等复杂问题,实时语音交互出色,可理解情感、定制声音、切换多语言。还能进行文本生成、图像生成、语音交互。但一些专业领域如法律、医疗等存在输出结果不够精准的情况。
1月6日,昆仑万维宣布旗下天工大模型4.0 o1版和4o版已同步上线,并登陆天工网页和APP,免费使用。其中o1模型具备强大的中文逻辑推理能力,不仅包含上线即开源的模型,还有两款性能更强的专用版本,能熟练处理各种推理挑战,包括数学、代码、逻辑、常识、伦理决策等。4o版包含赋能的实时语音对话助手Skyo,是一个具备情感表达能力、快速响应能力、多语言流畅切换的智能语音对话工具,能够为用户带来温暖贴心、流畅实时的对话体验。
图16 天工o1模型正式上线(来源:昆仑万维集团)
10
百川智能—Baichuan系列
百川智能主要的AI大模型Baichuan系列,其中Baichuan-7B资源占用少、推理速度快,在文本生成、知识问答、语言理解等任务上表现均衡,适用于中小企业智能客服、内容生成系统及个人开发者本地实验;Baichuan-13B语言表达更准确、知识更丰富,能更好处理复杂任务,对多语言处理能力较好,适用于中等规模企业智能办公、智能写作辅助及学术研究。
Baichuan系列大模型优势在于能进行多轮对话、内容生成、文章摘要、知识问答、代码生成、指令跟随、数学与逻辑推理,可应用于智能客服、智能写作辅助、智能语音识别、翻译等领域。劣势主要是无法直接获取实时数据信息,难以对超出其训练数据范围和理解能力的专业或超复杂问题提供准确有效的答案。
1月24日,百川智能发布了全场景深度思考模型Baichuan-M1-preview,该模型是国内唯一一个同时具备语言推理、视觉推理、搜索推理三项能力的模型,并且解锁了医疗循证模式,不仅各项推理能力行业领先,在医疗健康场景上更是一骑绝尘。此外,为了推动AI技术在医疗领域的创新与应用,百川智能还开源了Baichuan-M1的小尺寸版模型Baichuan-M1-14B,该模型为行业首个医疗增强开源模型。从模型能力来看,此次发布的Baichuan-M1-preview在语言推理、视觉推理、搜索推理能力方面表现优异。语言推理方面,在AIME和Math等数学基准测试,以及LiveCodeBench代码任务上,Baichuan-M1-preview的成绩均超越了o1-preview等模型;视觉推理方面,在MMMU-val、MathVista、MathVision 等权威视觉评测中,Baichuan-M1-preview同样领先于GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview等模型。
图17 Baichuan-M1-Preview在多个方面表现优异(来源:百川智能)
11
MiniMax—MiniMax01系列
MiniMax开源最新模型MiniMax-01系列包含两个模型:基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。基础语言模型 MiniMax-Text-01集成了闪电注意力、softmax注意力和专家混合,支持处理多达400万个token的上下文,在学术基准测试中表现出色,其创意写作和知识问答能力突出,长文本处理的准确率和响应速度远高于其他模型;视觉多模态模型MiniMax-VL-01是MiniMax-01的视觉语言版本,在标准视觉语言下游任务中表现优异,尤其在视觉问答任务上能力强大。
图18 MiniMax-01在学术测试中表现出色(来源:MiniMax)
MiniMax 01系列的优势在于性能出色,可进行长文本生成、分析、理解,能实现文本与图像结合,支持通过自然语言描述生成图像。劣势是内容的绝对真实性和可靠性需要用户进行甄别,对于多模态信息进行深度、复杂推理的场景存在一定局限。
近期,MiniMax-01首次大规模扩展了新型Lightning Attention架构,替代了传统Transformer架构,使模型能够高效处理4M token上下文。目前官方还公开了MiniMax-01的68页技术论文,并且已将MiniMax-01在Hailuo AI上部署,可免费试用。
图19 MiniMax-01已在Hailuo AI上部署(来源:MiniMax)
12
零一万物—Yi系列
零一万物目前主要的AI大模型为Yi系列,其中Yi-34B是双语开源模型,支持200K超上下文窗口,可处理约40万字的文本,还支持通用聊天、问答、对话、写作、翻译等功能。Yi-34B-Chat-0205是基于开源版深度优化的版本,适用于多篇文档内容理解、海量数据分析挖掘和跨领域知识融合应用等场景。Yi-VL-Plus支持1024*1024高分辨率图片输入,具备图片问答、图表理解、视觉推理能力。Yi-VL-34B和Yi-VL-6B是基于Yi语言模型开发的多模态大模型,擅长图文理解和对话生成,支持单图多轮视觉问答、中英文对话,可对448×448分辨率的图像进行理解。
图20 Yi-VL-34B、Yi-VL-6B多项测试结果(来源:零一万物)
Yi系列模型能做的事情很多,比如助力电商平台提高产品推荐精准度,一键生成创意美图、动漫头像、种草笔记、爆款标题、活动方案等,还能用于数字人24小时不间断直播。但它难以处理需要超长上下文理解的复杂任务,如对几十万字文档的深度分析总结,且在处理一些对实时性和场景复杂性要求极高的任务时,也存在一定局限。
去年10月,零一万物发布了最新的高性能、高速度旗舰模型Yi-Lightning。相比上一代模型Yi-Large,Yi-Lightning的首包速度提升了1倍,整体推理速度提升了40%。在处理复杂语言任务时,Yi-Lightning不仅速度快,而且生成结果更具文学性和准确性。采用的adopted动态Top-P路由机制,提升了模型的learning能力和推理效率。而且每百万Token的推理成本仅为0.99元人民币,极具市场竞争力,它的API接口支持多种编程语言,让不同背景的开发者都能快速上手。
图21 Yi-Lightning在Chatbot Arena LLM Leaderboard排名前列
13
阶跃星辰—Step系列
阶跃星辰目前主要的AI大模型包括多模态Step-1系列、Step-2系列等。多模态Step-1系列中,Step-1V是视觉版本多模态模型,能精准识别复杂场景图像内容及相似图片,还可精确识别理解图像中的文化隐喻,具有强大的视觉推理能力;Step-1X拥有强大的图像生成能力,支持文本描述作为输入方式;Step-2系列有正式版、Step-2mini,采用MoE模型架构,在数学、逻辑、编程、知识、创作、多轮对话等领域体感体验逼近GPT-4。
Step系列优势在于可进行图像理解与生成、多轮指令跟随、数学计算、逻辑推理、文本创作等,还可用于打造AI开放世界、数字人。劣势在于难以处理超出其知识边界和能力的复杂任务,比如对一些全新领域问题无法给出准确解答,在需要对复杂物理现象进行实时模拟和深度理解的场景中也存在困难。
阶跃星辰近期发布了最新一代模型Step Reasoner mini(简称「Step R-mini」)。这是阶跃星辰Step系列模型家族的首个推理模型。新模型擅长主动进行规划、尝试和反思,能通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。而且还擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。根据阶跃星辰公布的基准测试数据,Step R-mini在AIME 2024和Math500这两个数学基准上均达到了SOTA水平,其中在Math500上更是比o1-mini还多2分。Step Reasoner mini 写代码的能力也很不错:在LiveCodeBench代码任务上超过了o1-preview。
图22 Step R-mini测试结果(来源:阶跃星辰)
当下,国内外AI大模型领域竞争激烈。Deepseek的横空出世震惊全球科技界,而后OpenAI、xAI、Meta等科技巨头纷纷跟进,接连宣布将在今年推出全新大模型产品。国内众多企业也在积极布局,接入Deepseek的同时,结合本土市场特点开发特定领域的AI应用。未来的大模型将朝着多模态、轻量化、个性化方向发展,深入赋能各行业,有望在制造业、医疗、教育、科研等多个领域催生更多的创新应用。
来源:人工智能学家