摘要:按照百度的设定,文心大模型4.5,是一款多模态基础大模型,擅长生成及解读图片、视频,能解答多领域问题;文心大模型X1,是一款深度思考模型,在逻辑推理、复杂计算及工具调用等方面表现尤为出色。
"扎根应用,创造价值"
作者 | 黄炜
编辑 | 卢旭成
3月16日,百度抛出了两款核弹级产品——文心大模型4.5以及文心大模型X1。
按照百度的设定,文心大模型4.5,是一款多模态基础大模型,擅长生成及解读图片、视频,能解答多领域问题;文心大模型X1,是一款深度思考模型,在逻辑推理、复杂计算及工具调用等方面表现尤为出色。
根据Benchmark测评,文心大模型4.5的多项基准测试成绩优于GPT4.5、DeepSeek-V3,在平均分上以79.6分高于GPT4.5的79.14。简单来说,百度文心4.5和X1大模型就是当前世界上最强的中文大模型。
百度给这两款模型的定价是,普通用户登录文心一言官网即可免费体验。企业及开发者可在百度智能云千帆大模型平台调用新模型,文心大模型4.5的API输入价格为0.004元/千tokens,输出0.016元/千tokens;文心大模型X1为输入0.002元/千tokens,输出0.008元/千tokens。
两款模型一经发出,不仅国内AI圈子迎来大地震,连海外都“震感”强烈。
东南亚“超级应用”Grab的首席产品官Philipp Kandal不顾周末,发推称:“百度在周日都杀疯了,文心大模型4.5和 X1刚刚发布——其评估水平可与GPT-4.5/Deepseek R1媲美,而且API定价极具竞争力。可惜还没有英文注册渠道,不然我真想试试……”
全世界最著名的科技记者Robert Scoble也感叹:“只要DeepSeek R1的一半价格,我们要打一场AI价格世界大战了。”
蓝鲨硬科技也第一时间对百度的两款新模型进行了测试。经过亲身体验,我们发现,Benchmark的评分没有骗人,百度的两款新模型是当之无愧的最强中文模型。但随着测试深入,我们意识到,测评拿下高分,还只是百度AI野望的一小步。
过去两年半,当国内多数AI公司都在“向OpenAI看齐”,也有一些百度这样的异类,选择了走自己的大模型发展之路。而现在,当一个中国大模型厂商,能以OpenAI百分之一的API调用价格,提供性能相当的基础大模型,似乎终于证明了中国创业者并不缺乏创新能力。
正如李彦宏所言:“创新不能被计划,你也不知道创新何时到来,你所能做的就是营造一个有利于创新的环境……”
一把瑞士军刀
百度文心4.5和X1大模型给我的第一体感是“这玩意儿真像一把瑞士军刀”,可玩性比市面上其他模型都更高。
可玩性首先体现在对图片和视频的理解上。
经常使用大模型的用户都清楚,理解并识别图片和视频,是大模型的绝对短板。举个例子,我们经常在社交媒体刷到一些冷门电影片段,却不知道它出自哪部电影。这时如果去问大模型,大模型要么给出一个错误的答案,要么直接回答“无法识别”。
比如我选取的电影截图《赛德克·巴莱》,这是一部台湾电影,讲述了1930年台湾原始部落赛德克族反抗日本侵略者的故事,获得过第48届台湾金马奖。
在询问百度文心4.5模型后,它不仅准确识别了电影名称,还补充回答了主角的真实姓名和饰演角色。
而如果用同样的截图去问市面上其他主流模型,它们要么无法识别图片,要么就回答是美国电影《启示录》(Apocalypto)。
《启示录》是美国导演梅尔·吉布森的经典作品,讲述的也是原始部落反抗侵略的故事,只不过故事主角是玛雅人,发生时间在玛雅文明末期(16世纪)。与我想找的《赛德克·巴莱》,相差足有400年。
除了图片识别,文心4.5模型还支持视频识别和产出。比如输入一段6秒的九寨沟风景片段,并询问距离,模型能很快识别视频内容,并给出旅行建议。
大模型能理解视频内容,实在令人兴奋。
在当前这个短视频时代,有太多视频问题需要模型解答。
比如刷到一个风景如画的视频,想知道究竟是何处景点;刷到某个动漫片段,想知道名字入坑补番;看到一个萌宠视频,想了解这只狗狗是什么品种……这些需求都需要一个“懂”视频的大模型。
但在以往,主流模型根本没有视频输入选项,用户只能根据视频,输入模糊文字或者图片提问,得到的结果也不尽如人意。
造成上述现象的主因是——缺乏模型的多模态能力。所谓多模态,通俗来说,就是用不同方式表现信息。可以是文字,也可以是图片,短视频,或者音频。
之前的很多大模型,都是通过拼接多个模型拥有了多模态能力,属于非原生多模态模型。这种模型往往只能做些表面或字面理解,很容易忽略细节信息,导致推理输出不连贯甚至矛盾。
而百度则是原生的多模态大模型,原生多模态大模型更能敏锐捕捉图像背景、小物体或微小的文本信息,综合理解跨模态的幽默、讽刺等深层含义,使得推理结果连贯,更符合人类逻辑。
测试过百度大模型的多模态能力后,我决定给它上点强度,问了一个简短但不简单的问题“刘畊宏是干什么的?”这个问题的难度在于,刘畊宏有演员、歌手、健身教练、网红等多个身份,并且近一个月职业状态有更新。很难界定他的职业范围。
如果把这个问题抛给其他大模型,它们的概括比较笼统,刘畊宏的职业状态也停留在三年前。
同样的问题,去问文心4.5模型,它不仅列出了按时间顺序刘畊宏各个时期的代表作:《头文字D》、《爸爸去哪儿5》等,还详细描述了刘畊宏健身主播生涯爆火的经历和遭遇的困难。最关键的,文心4.5模型连刘畊宏2025年2月与无忧传媒解约,之后签约新MCN机构的消息都没有漏掉。逻辑清晰地完成了我的指令。
为了彻底难倒百度的新模型,我决定从题设开始,就给它一个错误的信息。我将模型切换成百度X1,将问题改成“刘耕宏是干什么的?”故意将“刘畊宏”的“畊”字错写成“耕”,这是一个我自己在写稿时都经常犯的错误。但百度X1模型第一时间发现了名字有误,并且识别了是提问者笔误的可能。
在我改正刘畊宏的名字后,百度X1甚至还会“炫耀”自己纠正了我的笔误,并进一步推测我的需求是“希望了解更详细的刘畊宏信息”。此刻我甚至感觉,自己正在与一个有“真情实感”的人类对话,而不是面对一个按照既定程序回答问题的机器。毕竟,机器怎么会有“炫耀”这种情绪,还能推测我的需求呢?
实用是检验模型的唯一标准
随着对百度文心4.5和X1大模型的体验逐渐深入,我愈发觉得以往行业对大模型的讨论,似乎搞错了重点。
抛开开源闭源的争论,实用才应该是检验模型好坏的唯一标准。但在工作中,现在的大模型实在让人不太敢用。
国际出版集团Wiley最近对70多个国家的4946名研究人员进行了一项调查——AI对撰写稿件、审查论文和进行同行评议等是否有用?
近三分之二的研究人员提到,不太相信AI处理复杂任务的能力,如识别文献中的研究空白、选择投稿期刊、推荐审稿人,或是建议相关引用文献等。81%的受访者还表示,他们担忧AI的准确度和隐私风险。
各国研究员们的担忧,存在于每一位试图将AI引入工作流的人之中。
比如让大模型生成一篇汇报材料,虽然模型能在几秒钟内生成一篇文稿,但没人敢直接上交,因为这篇文稿中必然存在大模型“胡编乱造”的内容,既可能是伪造数字,也可能是编造时间,或虚构人物。
这种被业界称为“幻觉”的现象,阻碍着AI进一步深入工作场景。毕竟,没人敢拿自己的饭碗赌AI是否又在“一本正经地胡说八道”。
但在深度体验过百度文心4.5和X1大模型后,我发觉其幻觉现象得到了明显改善。
就在上个月,一条AI制造的骇人新闻在社交媒体广泛传播——“截至2024年末,80后死亡率突破5.2%,每20个80后中就有1人已经去世”,很多自媒体称,数据来源是第七次人口普查的“权威数据”。后经上海网络辟谣介绍,这条假数据的最初来源很可能是和AI对话所得,后经自媒体扩散形成舆论风波。
当把同样的问题抛给百度模型,其不仅提供了第七次人口普查的真实数据“七普数据显示,2019年11月至2020年10月,30-39岁(80后)死亡人数为19.35万,占该年龄段总人口的0.087%。”还列出了引用信息来源,以及中国人民大学李婷教授的研究结果,证明网传的5.2%死亡率,存在严重错误。
大模型幻觉减少,靠的是百度RAG(检索增强)的基本功。依托在搜索领域的深厚积累,百度自研了一套兼顾“检索-理解-生成”检索增强系统,能够生成准确率更高、时效性更好的答案,降低大模型的幻觉。
除了保证内容和数据的真实性,一个实用的大模型还应该是个“多面手”。因为在当今职场,一个文员就要会写材料、写会议纪要、做图、做报表、做PPT等十八般武艺,大模型要真正提供生产力,也需要提升“综合能力”。
为了测试百度X1大模型的综合能力,我根据上周自己的实际工作要求“据案例图片,生成一张妇女节宣传海报,感谢妇女同志对公司的贡献,并生成一段朋友圈文案。”
有趣的是,百度X1大模型将自己的思考过程也展示了出来——第一步,调用图片理解工具识别图片内容,并根据我的意图,进行详细的步骤规划;第二步,使用图片生成工具,生成了一张卡通妇女节宣传海报。
根据百度官方的解释,多工具调用是文心X1的特色之一。目前上线的工具包括高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等。
根据亲身体验,用户不必选择具体的工具,大模型就能根据用户的指令,智能选择对应的工具。
大模型下半场,中国厂商重回正确轨道
前文提到,根据Benchmark测评,百度文心4.5和X1的多项测试分数都优于GPT4.5、DeepSeek-V3,这个成绩固然可喜。
但除了测试分数,百度发布这两款业内最强中文大模型更大的意义在于——让中国厂商,在大模型的下半场竞争中重新回到了正确轨道。
还记得2023年初,许多中国大模型厂商放下豪言“要做中国的OpenAI”,之后的行为也带有浓厚的“军备竞赛”意味,大家攀比的是你家大模型有多少亿参数,屯了多少张英伟达显卡,融了多少亿资金?而不是讲模型是否实用。
“堆参数、屯卡、烧融资”的确是OpenAI喜欢的玩法,但对中国大模型来说,恐怕并不适合“财大气粗”的美股玩法。
OpenAI目前为止已筹集了219亿美元(约合人民币1600亿元)。据The Information预测,OpenAI在2029年实现盈利之前,还要总共亏损440亿美元(约合人民币3200亿元)。
OpenAI的烧钱规模,在中国市场显然不可能复刻。金沙江创投主管合伙人朱啸虎就多次表示:“不要烧钱搞AIGC,你必须找到PMF(产品与市场匹配)。微软3万亿美金市值,他们敢砸钱。中国不需要砸,美国有钱在前面试错,它一旦证明路通了,后面要花的钱少一个数量级。”
朱啸虎的话一度被认为是“没有技术理想”的商人思维。但事实证明,“精研技术,强调应用”正是一条更适合中国大模型的发展之路。
以大模型落地最关键的API调用成本来说,“技术理想派”OpenAI最新发布的GPT-4.5模型,每百万Tokens输入的价格要75美元(约合人民币542元),输出的价格为150美元(约合人民币1085元)。OpenAI声称是“GPT-4.5体量很大,需要大量计算资源,因此价格难以降低。”
但事实真如OpenAI所言吗?
参考百度给开发者的定价,文心大模型4.5的API输入价格为0.004元/千tokens,输出0.016元/千tokens,只有GPT4.5定价的1%;即将在千帆平台上线的文心大模型X1,定价为输入0.002元/千tokens,输出0.008元/千tokens,价格仅为GPT4.5价格的0.5%。
连全球最知名的科技记者Robert Scoble都不禁吐槽:“为什么山姆·奥特曼想(推动美国政府)禁止中国模型?一家中国大型公司(百度)推出一款新型多模态模型,其性能与OpenAl的GPT-4.5相当,但成本却要远低。”
相比特曼通过拼命营销概念,炒高模型调用价格,百度董事长李彦宏倒是说了大实话:“今天,大型语言模型12个月内推理成本可以降低90%以上。回顾过去几百年历史,多数创新都与降低成本有关。如果成本降低一定比例,生产力也随之提高同样比例,这就是创新的本质。在今天,创新速度比以往都快得多。”
在过去两年,国产大模型陷入了与硅谷大厂攀比烧钱、刷榜、玩概念的怪圈,无疑是以己之短攻彼之长——这是硅谷更擅长的游戏,规则和解释权由他们定义。
但技术创新从来不止一种选项。
中国是全球唯一拥有联合国产业分类中全部工业门类的国家,不仅有庞大的C端用户,还有广阔的B端市场。这为大模型的应用落地提供了丰富的场景和巨大的市场潜力。
以百度为例,百度财报显示,百度智能云拥有中国最大的大模型产业落地规模,正为超过60%央企和大量民营企业提供AI服务。在2024年第四季度,百度智能云营收同比增长26%,其中AI相关收入增长了近3倍。百度为国家电网定制的AI解决方案,正用AI解决电网规划、电网运维、电网运行、客户服务等诸多领域的实际问题。
换句话来说,扎根中国广袤应用市场,将产业应用、自我造血视作生命线的中国创业者们,同样可以在大模型竞争中闯出一片天。
当大模型竞争进入下半场,以百度为代表的中国AI企业们终于重新回到了“扎根应用,创造价值”的合理轨道,走上了一条更具中国特色的大模型发展道路。
来源:蓝鲨硬科技