摘要:3月25日晚,DeepSeek突然在Hugging Face平台发布了新版本DeepSeek-V3-0324模型。
DeepSeek、Google及OpenAI突发更新
深夜,当人们已经进入梦乡之时,AI领域的竞争却丝毫未减。
3月25日晚,DeepSeek突然在Hugging Face平台发布了新版本DeepSeek-V3-0324模型。
这次更新延续了DeepSeek一贯低调的风格,没有高调的宣传,只有模型权重和一个空白的README文件。
而此次更新也一如既往地在AI社区内引发了不小的震动。
图源:Hugging Face
从技术层面来看,DeepSeek-V3-0324很可能被视为DeepSeek即将推出的推理模型DeepSeek-R2的基础。
此前,路透社曾透露,DeepSeek正在加快R1模型的后续产品R2的研发和发布进程,原计划在5月初发布,但公司现在希望能够尽早推出 。
不过,在随后不久,DeepSeek官方迅速否认了该传闻,表示消息不实。
业内人士推测,DeepSeek-R2模型预计将在代码生成和除英语外的更多语种推理能力方面有不小的提升。
这也是为什么R2在全球都有人期待其快速到来。
而就在DeepSeek深夜更新其v3模型后一天时间内,AI领域的另一巨头Google也突然在深夜发布了一项重磅更新——正式推出了全新的Gemini 2.5 Pro模型,并声称这是迄今为止最智能的AI模型。
Google强调,Gemini 2.5 Pro是一款具备“思考”能力的模型,能够逐步分析任务,做出更明智的决策,从而在处理复杂提示时能够给出更准确和更符合上下文的回复。
图源:X平台
Google选择与DeepSeek几乎在同一天发布其最新、最强大的模型,无疑是对市场竞争格局变化的积极回应。
然而,面对如此激烈的市场竞争,OpenAI并没有选择避其锋芒。
这一次,OpenAI暂时放弃了在基座或推理模型方面的竞争,而是另辟蹊径,对GPT-4o和Sora进行了重大升级,并推出了全新的文生图模型。
OpenAI的CEO奥特曼亲自站台,称这一新模型为“令人难以置信的产品”。
图源:X平台
在这场看似突然的三方混战中,实则每个巨头都有着自己的战略重点。
DeepSeek此次更新专注于基座模型的优化。
众所周知,目前主流的大模型一般分为两种,一种是“基座模型”,字面意思就像是各种大模型的“地基”;
而另一种是“推理模型”,DeepSeek-R1就是其中之一。
此次更新的Gemini 2.5 Pro则也是推理模型中的一种。
谷歌这一次的发力,不仅打破了多项跑分记录,该模型的实际体验也十分出色,这点我们后续再说。
OpenAI的文生图模型则类似处于另一维度,虽然都几乎同步更新,也都给行业带来了震撼,但OpenAI此次更新的时间实在是意味深长。
实测对比,谁更胜一筹?
尽管DeepSeek-V3-0324的发布方式非常低调,但其在技术上的进步却不容忽视。
根据Artificial Analysis Intelligence Index的评估,DeepSeek-V3-0324已经成为得分最高的非推理模型。
在基准测试中超越了包括Google的Gemini 2.0 Pro、Anthropic的Claude 3.7 Sonnet以及Meta的Llama 3.3 70B等一众明星模型 。
图源:Artificial Analysis Intelligence Index
此外,在面对复杂问题时,DeepSeek-V3-0324的表现也可圈可点,特别是编程能力大幅提升。
根据Aider LLM的多语言基准测试,V3-0324的得分从之前的不到50%一举提升到了55%。
尤其是在代码生成方面,V3-0324已经能够与Claude 3.7 Sonnet一决高下,甚至在某些任务上超越了DeepSeek自家的R1模型。
并且,作为咱中国自己的AI模型,这次更新后其中文写作能力也得到了提升,风格和内容质量更加接近R1的标准,在中长篇文章的写作方面也有所进步。
为什么这一点要单拎出来说?
因为大家都知道,DeepSeek的R1深度思考模型时常会出现服务器繁忙的现象,极度影响使用体验。
而当我们把“深度思考(R1)”关闭后,使用的则是DeepSeek-V3。
因此在这一次更新过后,对于那些需要用DeepSeek写文案的中国用户来说,关闭R1使用V3或许是个不错的选择。
图源:新华社
Google发布的Gemini 2.5 Pro同样不容小觑。
根据公开测试结果,Gemini 2.5 Pro在多项测试中超越了现有主流模型。
它不仅在数学、科学和编码基准测试中击败了DeepSeek-R1、Grok 3和Claude 3.7,还几乎全面优于OpenAI家的两款模型——o3-mini和GPT4.5。
Gemini 2.5 Pro现在在竞技排行榜上位居第一,这是有史以来最大的分数跳跃,比Grok-3/GPT-4.5高出40分。
图源:鲸AI
在模型正式上线后,许多外网网友实际体验后表示,Gemini 2.5 Pro在处理复杂的编程任务时展现了过硬的实力,不仅速度很快,生成的结果质量也非常高。
为了更直观地感受该模型的性能,这里编辑进行了一项对比测验。
实测中,编辑使用同一提示词:
随后分别让Gemini 2.5 Pro、DeepSeek-R1及更新后的DeepSeek-V3来完成这次任务。
实验结果显示,Gemini 2.5 Pro在输出质量上表现最为出色。
它生成的游戏不仅具备完整的功能按钮,实际操作体验也非常良好。
图源:Gemini
相比之下,DeepSeek-R1在输出质量上稍逊一筹,生成的游戏虽然能够运行,但在体验却有所欠缺。
生成的贪吃蛇游戏会经常直接判罚,且无重新开始的按钮,只能自行创新网页。
图源:DeepSeek
反观DeepSeek-V3给出的游戏则更加亮眼,同样具备了功能性按钮及正常的游戏操作体验,用来空闲打发时间或者摸鱼都是一把好手。
图源:DeepSeek
在响应时间上,Gemini 2.5 Pro也最为出色。
多次实验后发现,谷歌Gemini 2.5 Pro的响应时间几乎都在1分钟以内,推理及生成的速度都极快,当然这也与这次的任务比较简单有关联。
但DeepSeek方面,R1模型的响应速度平均在1-3分钟之间,V3模型的响应速度则不太稳定,平均在2分钟开外。
不过,DeepSeek也有自己的优点,用DeepSeek生成的网页游戏可以一键加载,哪怕是部署到本地步骤也十分简单。
图源:DeepSeek
相比之下,Gemini 2.5 Pro生成的游戏部署则较为复杂。
但对于那些只需要代码生成的用户来说,这根本不算什么缺点。
图源:Gemini
通过上述对比实验,我们可以看到,虽然DeepSeek的更新有着显著进步,但在性能及体验上,Gemini 2.5 Pro带来的震撼更胜一筹。
当然,DeepSeek-R2尚未到来,用早已更新的R1和V3来与谷歌的推理模型相比显然不占优势。
未来R2与Gemini 2.5 Pro的交锋才是亮点。
OpenAI的文生图模型,颠覆想象还是营销噱头?
另一方面,OpenAI此次发布的GPT-4o文生图模型,单从官方演示的效果来看或许也是一款爆炸性颠覆的产品。
官方演示中,给出的提示词是:
“这是用手机拍摄的玻璃白板的广角图像,拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字,她身穿一件印有大型OpenAI标志的T恤。笔迹看起来很自然,但有点凌乱,我们可以看到摄影师的倒影。”
这样的描述听起来十分复杂,而最后生成的图像质量之高却令人难以置信。
从反射的画面到密密麻麻的文字,每一个细节都处理得恰到好处,几乎无法让人相信这是AI生成的图像。
图源:OpenAI
第二步演示则更加惊艳,一句简单的“摄影师的自拍照,她转身与他击掌”,最后得到的图片不仅保留了原来的背景,图片中的人物形象也十分贴合。
可以说,该模型完全理解了官方给出的提示词,极大降低了普通用户的使用门槛。
图源:OpenAI
不过,这里也要暂时泼大家一盆冷水,正如一些从业者质疑的那样,这段演示是否由官方特调还有待考量。
只有在更多用户实际体验的检测下,才能判断这款模型是否真的做到了“一句话完美P图”。
但有一点不得不说,在DeepSeek和Google依然聚焦于基座模型和推理能力的传统竞争时,OpenAI的文生图模型则彻底跳出了这个框架。
通过视觉内容生成,OpenAI开辟了全新的应用场景,为行业带来了更大的想象空间。
这种差异化竞争的策略不仅避免了与对手的正面冲突,还为OpenAI又一次开辟了新的市场空间。
随着技术的不断迭代,未来还将有怎样的惊喜?让我们拭目以待。
作者 | 刘峰
来源:科技头版