不得不说,最早做AI大模型的百度,反而动作是最慢的

B站影视 韩国电影 2025-03-19 00:07 1

摘要:国内的AI大模型在这两个月以来,进步不能用简单的“快”来形容,简直就跟开了挂一样离谱。

国内的AI大模型在这两个月以来,进步不能用简单的“快”来形容,简直就跟开了挂一样离谱。

先是DeepSeek以开源姿态横空出世,以极低的训练成本,实现了在数学、代码、自然语言推理等任务上,性能不逊于OpenAI o1正式版。

鲶鱼闪现进场,让不少搞大模型的大厂都坐不住了。

咱们平时看得见,用得着的阿里通义、字节豆包和腾讯元宝,都搞起了腹泻式更新。

而国内最早做通用大模型的百度,反而动作是最慢的。

前阵子百度才说,要在几个月内推出新的文心大模型4.5系列。

机哥当时还寻思着,真要深蹲两三个月才出手,那花都谢了呀。

果不其然,就在3月16日,百度还是憋不住了。

在大伙仍在睡梦中时,百度已经把最新的文心大模型4.5,还有深度推理模型X1给发了出来。

机哥顺便去看了百度对文心4.5的介绍和基准测试成绩。

该说不说,纸面实力还是蛮强的。

比如它在多个基准测试中,分数比GPT4.5、DeepSeek-V3更高。

多模态能力

文本能力

文心大模型X1的性能测试成绩,百度倒是没有放出来。

不过,不过...

我发现文心X1大模型API价格,居然比堪称「大模型价格屠夫」的DeepSeek-R1还要低。

而且是低了整整一半。

不愧是大厂,价格战这一块打起来,压根不带怕的。

当然道理咱们都懂。

不要看厂商吹什么,要看它实际做到了什么。

咱们先从「文心大模型4.5」开始测起。

文心大模型4.5

百度官方对它的定位是原生多模态大模型。

说白了就是啥都能理解和生成,支持图、文字、音频和视频等内容的理解。

我二话不说,上传了一张黑神话取景地之一,悬空寺的图片给它。

文心4.5不到3秒就给出了详细、正确的答案。

比如回答出“悬空寺”,还顺带做了地址、建筑特色的科普。

紧接着我又扔了张小米11的图过去,问它是啥手机,回答也没啥问题。

但我发现文心4.5,并不是所有手机都能回答出来。

像是新一点的OPPO Find X8 Pro。

以及发布没多久的小米15 Ultra。

文心4.5都只说对了品牌,但没说对相应机型。

我估计是训练数据,还没更新到今年的新机。

接下来再看看,它的识别和分析图片能力咋样。

我把广州6号线的线路图上传过去,文心大模型4.5很快就认出了这是6号线线路图。

也知道从某个站到另一个站,要经过多少站点。

就基础的图片识别能力来说,文心4.5挺准确的。

但要论解析的详细程度。

机哥测试下来,认为腾讯元宝的混元模型表现更好。

它不仅把线路基本信息写了出来,还把整体设计、配色和设计亮点给分析了一波。

腾讯元宝

考虑到文心4.5并不主打深度推理,倒是能理解万岁。

既然图片没啥难度,那音频识别,又是个啥水准?

我先上传了方大同的《三人游》。

文心没啥毛病,把歌曲认出来了。

要是再把歌曲的时长拉长亿点呢?

古巨基的经典《情歌王》,安排。

文心4.5表现依旧稳定,除了把歌名标出来以外,还写出了部分歌词。

爱你,不是因为你的美而已~

机哥没记错的话,这应该也是国内唯一一个,支持解析音频的多模态大模型。

当然啦,除了常规的图片、音频和文档识别。

百度官方的说法是,它具备很高的情商,能轻松get到一些网络流行梗图。

啊,终于来到我最喜闻乐见的环节。

最近“小明剑魔”的MVP梗不是很火么。

我直接把它扔给文心4.5来识别。

好消息是,它识别出了图里的人在笑,也知道图里的台词是什么。

坏消息是,它认错人了...

这特么哪里是孙亚龙啊?

而且这梗图的意思,真的是得知自己父亲得了MVP而自豪么?

同样的问题,我抛给隔壁字节豆包。

结果发现,它正确解答出了梗的意思,相关的联网信息,还能点进去看短视频。

看来网络冲浪这一块,还是手握抖音的豆包更胜一筹。

阿里通义这边,虽说没有完全解读出梗的原意。

但至少它知道这图里的人物,是主播“小明剑魔”,并且通过联网搜索了解到梗是通过主播和弹幕之间的互动产生的。

好在稍微简单好理解一点的梗图。

文心4.5的表现还不错。

咋说呢。

梗图属于是没啥规律,但又传播性很广,网友喜闻乐见的玩意。

如果大模型的联网搜索、图片识别和总结能力这三件套,训练得不够炉火纯青。

那肯定是没那么容易理解到位的。

不过百度不是也一同发布了,自家首个推理模型X1嘛。

我切换到X1模型,再重新抛给它小明剑魔的梗图。

文心X1深度推理模型

诶,这次的表现就相当优秀了。

首先它整个思考过程就很对味。

最终给出的解析答案,更是兼具科普、深度和广度。

从梗的起源、传播和二创、背后的文化吐槽、为何能引发共鸣四大角度进行解读。

而在很经典的“9.11和9.9”谁更大的数字裸体问题上。

文心一言的旧模型,是翻过车的。

这回的思维链和最终答案,终于是符合逻辑且正确了。

最近还有个难倒了无数个大模型的问题——

「一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?只需回答这个字。」

正所谓看热闹不嫌事儿大。

我顺手就扔给了文心X1。

结果吧...这新鲜出炉的X1大模型还是翻车了。

虽然它的思考过程很长,但整体看下来,更像是在自己绕自己。

最终文心X1给出的答案是“朸”。

难绷。

相比之下,隔壁豆包主打一个人狠话不多。

它都懒得深度思考了,言简意赅打出一个“杚”。

被寄予厚望的DeepSeek,同样凭借着强大的中文理解生成和深度推理能力,给出了正解。

就这么几轮体验对比下来。

百度这俩新鲜出炉的文心大模型,在某些逻辑问题,以及时效性较强的问题上,回答准确性和深度有待提高。

但有一说一,这表现比百度之前的模型真的强很多。

文心大模型4.5作为原生多模态模型,像极了狠狠堆料的旗舰手机,啥都不缺,比较全能。

至于百度首次推出的X1推理模型,我感觉有的问题依旧容易绕圈圈。

而且思考过程很容易复杂化。

可能一个简单的逻辑问题,它能思考大半天,消耗的Token数简直恐怖如斯。

我知道大厂的算力很足、钱很多,但这么用Token多少有点浪费。

客观来说,它跟DeepSeek、阿里通义这些国产顶级模型,是有一定差距的。

可能也是感受到了压力,文心大模型的打法,从早期的闭源收费,转变到了如今的开源+免费。

这样的良性竞争,机哥绝对希望能持续更久。

图片来自网络

来源:锋潮评测

相关推荐