摘要:国内的AI大模型在这两个月以来,进步不能用简单的“快”来形容,简直就跟开了挂一样离谱。
国内的AI大模型在这两个月以来,进步不能用简单的“快”来形容,简直就跟开了挂一样离谱。
先是DeepSeek以开源姿态横空出世,以极低的训练成本,实现了在数学、代码、自然语言推理等任务上,性能不逊于OpenAI o1正式版。
鲶鱼闪现进场,让不少搞大模型的大厂都坐不住了。
咱们平时看得见,用得着的阿里通义、字节豆包和腾讯元宝,都搞起了腹泻式更新。
而国内最早做通用大模型的百度,反而动作是最慢的。
前阵子百度才说,要在几个月内推出新的文心大模型4.5系列。
机哥当时还寻思着,真要深蹲两三个月才出手,那花都谢了呀。
果不其然,就在3月16日,百度还是憋不住了。
在大伙仍在睡梦中时,百度已经把最新的文心大模型4.5,还有深度推理模型X1给发了出来。
机哥顺便去看了百度对文心4.5的介绍和基准测试成绩。
该说不说,纸面实力还是蛮强的。
比如它在多个基准测试中,分数比GPT4.5、DeepSeek-V3更高。
多模态能力
文本能力
文心大模型X1的性能测试成绩,百度倒是没有放出来。
不过,不过...
我发现文心X1大模型API价格,居然比堪称「大模型价格屠夫」的DeepSeek-R1还要低。
而且是低了整整一半。
不愧是大厂,价格战这一块打起来,压根不带怕的。
当然道理咱们都懂。
不要看厂商吹什么,要看它实际做到了什么。
咱们先从「文心大模型4.5」开始测起。
文心大模型4.5
百度官方对它的定位是原生多模态大模型。
说白了就是啥都能理解和生成,支持图、文字、音频和视频等内容的理解。
我二话不说,上传了一张黑神话取景地之一,悬空寺的图片给它。
文心4.5不到3秒就给出了详细、正确的答案。
比如回答出“悬空寺”,还顺带做了地址、建筑特色的科普。
紧接着我又扔了张小米11的图过去,问它是啥手机,回答也没啥问题。
但我发现文心4.5,并不是所有手机都能回答出来。
像是新一点的OPPO Find X8 Pro。
以及发布没多久的小米15 Ultra。
文心4.5都只说对了品牌,但没说对相应机型。
我估计是训练数据,还没更新到今年的新机。
接下来再看看,它的识别和分析图片能力咋样。
我把广州6号线的线路图上传过去,文心大模型4.5很快就认出了这是6号线线路图。
也知道从某个站到另一个站,要经过多少站点。
就基础的图片识别能力来说,文心4.5挺准确的。
但要论解析的详细程度。
机哥测试下来,认为腾讯元宝的混元模型表现更好。
它不仅把线路基本信息写了出来,还把整体设计、配色和设计亮点给分析了一波。
腾讯元宝
考虑到文心4.5并不主打深度推理,倒是能理解万岁。
既然图片没啥难度,那音频识别,又是个啥水准?
我先上传了方大同的《三人游》。
文心没啥毛病,把歌曲认出来了。
要是再把歌曲的时长拉长亿点呢?
古巨基的经典《情歌王》,安排。
文心4.5表现依旧稳定,除了把歌名标出来以外,还写出了部分歌词。
爱你,不是因为你的美而已~
机哥没记错的话,这应该也是国内唯一一个,支持解析音频的多模态大模型。
当然啦,除了常规的图片、音频和文档识别。
百度官方的说法是,它具备很高的情商,能轻松get到一些网络流行梗图。
啊,终于来到我最喜闻乐见的环节。
最近“小明剑魔”的MVP梗不是很火么。
我直接把它扔给文心4.5来识别。
好消息是,它识别出了图里的人在笑,也知道图里的台词是什么。
坏消息是,它认错人了...
这特么哪里是孙亚龙啊?
而且这梗图的意思,真的是得知自己父亲得了MVP而自豪么?
同样的问题,我抛给隔壁字节豆包。
结果发现,它正确解答出了梗的意思,相关的联网信息,还能点进去看短视频。
看来网络冲浪这一块,还是手握抖音的豆包更胜一筹。
阿里通义这边,虽说没有完全解读出梗的原意。
但至少它知道这图里的人物,是主播“小明剑魔”,并且通过联网搜索了解到梗是通过主播和弹幕之间的互动产生的。
好在稍微简单好理解一点的梗图。
文心4.5的表现还不错。
咋说呢。
梗图属于是没啥规律,但又传播性很广,网友喜闻乐见的玩意。
如果大模型的联网搜索、图片识别和总结能力这三件套,训练得不够炉火纯青。
那肯定是没那么容易理解到位的。
不过百度不是也一同发布了,自家首个推理模型X1嘛。
我切换到X1模型,再重新抛给它小明剑魔的梗图。
文心X1深度推理模型
诶,这次的表现就相当优秀了。
首先它整个思考过程就很对味。
最终给出的解析答案,更是兼具科普、深度和广度。
从梗的起源、传播和二创、背后的文化吐槽、为何能引发共鸣四大角度进行解读。
而在很经典的“9.11和9.9”谁更大的数字裸体问题上。
文心一言的旧模型,是翻过车的。
这回的思维链和最终答案,终于是符合逻辑且正确了。
最近还有个难倒了无数个大模型的问题——
「一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?只需回答这个字。」
正所谓看热闹不嫌事儿大。
我顺手就扔给了文心X1。
结果吧...这新鲜出炉的X1大模型还是翻车了。
虽然它的思考过程很长,但整体看下来,更像是在自己绕自己。
最终文心X1给出的答案是“朸”。
难绷。
相比之下,隔壁豆包主打一个人狠话不多。
它都懒得深度思考了,言简意赅打出一个“杚”。
被寄予厚望的DeepSeek,同样凭借着强大的中文理解生成和深度推理能力,给出了正解。
就这么几轮体验对比下来。
百度这俩新鲜出炉的文心大模型,在某些逻辑问题,以及时效性较强的问题上,回答准确性和深度有待提高。
但有一说一,这表现比百度之前的模型真的强很多。
文心大模型4.5作为原生多模态模型,像极了狠狠堆料的旗舰手机,啥都不缺,比较全能。
至于百度首次推出的X1推理模型,我感觉有的问题依旧容易绕圈圈。
而且思考过程很容易复杂化。
可能一个简单的逻辑问题,它能思考大半天,消耗的Token数简直恐怖如斯。
我知道大厂的算力很足、钱很多,但这么用Token多少有点浪费。
客观来说,它跟DeepSeek、阿里通义这些国产顶级模型,是有一定差距的。
可能也是感受到了压力,文心大模型的打法,从早期的闭源收费,转变到了如今的开源+免费。
这样的良性竞争,机哥绝对希望能持续更久。
图片来自网络
来源:锋潮评测