摘要:知名风投机构Benchmark合伙人Bill Gurley,在社交媒体上的评论引发热议:“美国人工智能公司应将100%的时间用于开发和创新,而不是在华盛顿特区游说寻求保护以躲避竞争。”
又一家中国模型引发了硅谷大模型界的反思!这次,是百度文心X1。
知名风投机构Benchmark合伙人Bill Gurley,在社交媒体上的评论引发热议:“美国人工智能公司应将100%的时间用于开发和创新,而不是在华盛顿特区游说寻求保护以躲避竞争。”
另一边,海外用户纷纷在平台上求助如何获取百度账号,科技KOL Alvin Foo在使用数小时后评价:“百度对文心进行了重大更新...其性能令人印象深刻。在多个基准测试中均优于ChatGPT 4.5,而价格仅为其1%。”科技作家Robert Scoble则直言:“我们有一场AI价格战!”
这一切,都源于3月16日百度同时发布了文心大模型4.5和文心大模型X1,目前,两款旗舰产品已提前在文心一言官网免费向用户开放。
作为百度新一代基座大模型,文心大模型4.5的多项基准测试成绩优于GPT4.5、DeepSeek-V3等,并在平均分上以79.6分高于GPT4.5的79.14。而文心X1作为百度首个深度思考模型,主打的就是极致性价比。以输入0.002元/千tokens、输出0.008元/千tokens的价格,仅为DeepSeek-R1价格的一半,但性能却不相上下。
更关键的是,文心X1实现了从逻辑推理、热点分析到多工具协同调用的突破,成为首个自主运用工具的深度思考模型。它能调用搜索、AI绘图、代码执行等11种工具,模型可自主规划行动路径,生成可直接落地的方案。
假设一下,当深度思考模型可以调用足够多的工具来实现用户发出的指令,比如直接调用编程工具进行编程,或者调用word文档存档知识库,形成一系列工作流,这不就是原生Agent么?
我们带着这个疑问,全面测试了X1和文心4.5。
能调用工具的X1,堪比Agent?在评测过程中,我们先是测试了X1的基础编程能力,让它帮忙设计了一个贪吃蛇小游戏。通过思考,X1很快给出了设计思路和代码。
代码结构清晰,注释详尽,不仅包含了游戏的核心逻辑,还考虑到碰撞检测、分数计算和游戏状态管理等细节。不过X1体现了完全的“程序员直男风格”,完全不懂美化一下小蛇。(笑死)
随后,我们又测试了X1的逻辑推理能力,向它提出了一个经典的推理谜题,这道题在我们题库里,几乎问过每一个推理模型,包括DeepSeek R1、Kimi1.5、OpenAI o1,但无一例外都选择了「abba」的答案,但真实的情况是前三题正确,最后一题的杀人动机为c,一个被迫害妄想症患者的自我保护。
看来大模型懂逻辑,但还是很难懂人性。
在这次X1的功能中,与以往推理模型最大的不同在于他可以思考后调用工具,完成用户更落地的需求,结合多模态的能力,我们尝试了几个很实用的场景。
比如我们找到了一张房间的图片,需要将图片中的房间进行软装改造,并生成效果图。这中间涉及到图片理解——装修意见——AI生图,调用了三个工具完成最终的效果图展示。
效果图出来的时候,惊呆了!家装设计师岌岌可危啊!不仅能自定义风格,对哪些家具摆放不满意还可以进一步提需求调整,X1也能处理更加复杂的需求,比如房间摆设风水等等,无限出图,刷到满意为止!
经过实测,X1即便在复杂任务下,反应速度也非常快,没有卡顿,同时X1能主动识别任务需求,精准分析问题性质和复杂度,无需用户明确指导便能理解真实意图。
最突出的特点是其自主工具选择能力,模型能基于任务特点智能选择最优工具组合,而非简单套用固定流程。在实际使用中,X1能在单次交互中灵活调用搜索、绘图、代码执行等多种工具协同工作,打破了传统模型的工具使用边界。
总的来说,推理分析能达到R1的水平,同时不卡顿又能调用其他工具,真香了!
怎样高性能,又能低成本?那么,X1是如何做到在保证模型性能的前提下,还能把价格打下来?
这一突破与百度多年的技术积累息息相关。通过飞桨深度学习平台和文心大模型的联合优化,文心X1实现了全链路极致调优,大幅降低了推理成本。
在模型压缩层面,文心X1应用了尖端技术进行深度优化。通过分块Hadamard量化技术,精确控制模型参数精度与规模的平衡;针对长序列场景,团队特别优化了注意力机制的量化方案,在保持推理准确性的同时显著减少了计算资源需求。这些压缩技术使模型体积减少的同时,维持了高水平性能表现。
推理引擎是另一个关键突破点。百度团队实现了低精度高性能算子优化,充分利用硬件特性;创新开发的动态自适应解码技术,同时基于神经网络编译器的深度定制化优化,实现了推理加速。
最后是通过框架和芯片协同优化、分离式部署架构、高效资源调度实现了系统级优化。
当然,除了百度在AI时代的技术积累以外,也有工程化的技术创新。
据硅星人了解到,X1采用了递进式强化学习训练方法,不同于传统的强化学习通过“试错+奖励”机制训练模型,“递进式”则强调分阶段、渐进式的训练策略,来提升模型的训练效率。
这种方法类似人类的学习路径——“先学走路,再学跑步”,目的是在创作、搜索、工具调用、推理等更复杂的任务场提升模型的综合应用能力。实际测试中,当要求X1分析一张包含图表的财报图片,并生成投资建议时,模型能自主决策先使用图像理解工具,再调用搜索获取相关行业数据,最后通过代码解释器生成数据可视化分析,整个过程如同专业分析师的工作流程。
其次,X1突破性地将思维链(Chain of Thought)和行动链(Chain of Action)结合进行端到端训练。
简单地理解为,模型不是割裂地学习思考与行动,而是将两者有机融合,形成完整的决策-执行闭环。通过这种方式,X1能根据每次行动的结果反馈,动态调整思考和行动策略。例如,在复杂的市场分析任务中,X1先通过思维链分析需要哪些数据,然后通过行动链调用搜索工具获取最新市场数据,发现数据不足后,又主动调整策略使用更专业的数据分析工具,最终生成全面的分析报告,这种灵活性在传统模型中难以实现。
第三,X1创新性地解决了单一奖励指标的局限性,构建了多元统一的奖励系统。通过融合多种类型的奖励机制,形成综合奖励信号,全方位指导模型优化方向。
这一系统的最大优势在于避免模型“偏科”,如过度追求准确性导致内容枯燥,或过度追求创意性而牺牲准确性。X1的输出更接近人类综合判断,能在不同场景下自适应调整表现风格。当然,这也带来了挑战:需要动态调整权重(如创作场景侧重创意性,代码生成场景侧重逻辑性),依赖海量场景数据训练。
模型发一赠一,文心4.5也来了值得一提的是,除了文心X1的强大表现,百度也发布了此前预告过的基础大模型:文心大模型4.5。
在实测中,文心4.5展现出卓越的多模态理解能力和极低的幻觉率。例如,我们向模型发送了一段抖音视频,关于电子产品介绍,文心4.5不仅能准确识别视频中的专业术语和关键数据,还能对该产品进行购买推荐。当面对含有多种信息源(图片、表格、文本)的混合输入时,模型能正确识别并区分不同来源的信息,避免了常见的信息混淆和虚构,这得益于其强大的去幻觉能力。
通过iRAG技术提升百度系列模型的去幻觉能力和准确性,以及FlashMask动态注意力掩码技术、多模态异构专家扩展技术、时空维度表征压缩技术、基于知识点的大规模数据构建技术和基于自反馈的Post-training技术。这些技术不仅保证了模型的精准理解和稳定输出,更为模型后续的行业应用提供了坚实基础。
可以让大模型从娱乐化的环境晋升到商业环境中,比如帮助家装设计师进行风格设计、分析视频脚本进行模仿、电商产品图生成等等,都变成了通用大模型的能力。
通过这些深度技术创新,百度不仅打造出了高性能、低成本的文心X1,更重要的是探索出了一条独特的大模型发展路径,在追求技术极致的同时兼顾实用性和经济性。
这种平衡发展的理念,既满足了企业对AI性能的高要求,又解决了应用成本问题,使AI真正能够为各行各业创造实际的价值。
来源:硅星人