中信建投 | 文心大模型4.5和X1发布,关注英伟达GTC 2025发布会

B站影视 港台电影 2025-03-19 16:47 1

摘要:文心大模型4.5和X1于2025年3月16日发布并上线文心一言官网,免费开放。4.5是原生多模态大模型,多模态理解和生成能力强,测试成绩优于GPT4.5,API调用价格仅为其1%。X1是深度思考模型,擅长中文知识问答等,增加多模态和多工具调用,性能对标Deep

1.文心大模型4.5和X1于2025年3月16日发布并上线文心一言官网,免费开放。4.5是原生多模态大模型,多模态理解和生成能力强,测试成绩优于GPT4.5,API调用价格仅为其1%。X1是深度思考模型,擅长中文知识问答等,增加多模态和多工具调用,性能对标DeepSeek-R1,调用价格为其一半。

2.谷歌Gemini 2.0集成原生图像生成技术,支持文本与图像同步输出,用户可通过自然语言指令生成PS效果、动态表情包等,与OpenAI形成差异化竞争。其功能涵盖文字与图片结合、对话式图像编辑等,为图像创作带来新可能。

3.英伟达GTC 2025召开,建议关注发布会带来的增量信息与投资机会,包括下一代AI芯片、电源、液冷、CPO&光模块等。

1.1百度发布文心4.5及X1两款大模型

3月15日,百度正式发布文心大模型4.5及文心大模型X1,目前,两款模型已在文心一言官网上线,免费向用户开放。同时,文心大模型4.5已上线百度智能云千帆大模型平台,企业用户和开发者登录即可调用API;文心大模型X1也即将在千帆上线。百度搜索、文小言APP等产品,将陆续接入文心大模型4.5和文心大模型X1,为用户带来更多元的体验。

文心大模型4.5:百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。文心大模型4.5具备优秀的多模态理解能力,能对文字、图片、音频、视频等内容进行综合理解。此外,文心大模型4.5也拥有“高情商”,网络梗图、讽刺漫画等等均能正确理解。

文心大模型4.5能力显著增强,关键技术包括:

FlashMask动态注意力掩码:加速大模型灵活注意力掩码计算,有效提升长序列建模能力和训练效率,优化长文处理能力和多轮交互表现;

多模态异构专家扩展技术:根据模态特点构建模态异构专家,结合自适应模态感知损失函数,解决不同模态梯度不均衡问题,提升多模态融合能力;

时空维度表征压缩技术:在时空维度对图片和视频的语义表征进行高效压缩,大幅提升多模态数据训练效率,增强了从长视频中吸取世界知识的能力;

基于知识点的大规模数据构建技术:基于知识分级采样、数据压缩与融合、稀缺知识点定向合成技术,构建高知识密度预训练数据,提升模型学习效率,大幅降低模型幻觉;

基于自反馈的Post-training技术:融合多种评价方式的自反馈迭代式后训练技术,全面提升强化学习稳定性和鲁棒性,大幅提升预训练模型对齐人类意图能力。

文心大模型X1:文心大模型X1具备更强的理解、规划、反思、进化能力,并支持多模态,是首个自主运用工具的深度思考模型。作为能力更全面的深度思考模型,文心大模型X1兼备准确、创意和文采,在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。作为能自主运用工具的大模型,文心大模型X1已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等多款工具。

关键技术方面,文心大模型X1主要有以下核心技术:

递进式强化学习训练方法:创新性地应用递进式强化学习方法,在创作、搜索、工具调用、推理等场景全面提升模型的综合应用能力;

基于思维链和行动链的端到端训练:针对深度搜索、工具调用等场景,根据结果反馈进行端到端的模型训练,显著提升训练效果;

多元统一的奖励系统:建立了统一的奖励系统,融合多种类型的奖励机制,为模型训练提供更加鲁棒的反馈。

1.2 OpenAI发布Agent工具

本周三,OpenAI发布一套新的API和内置工具、Agents SDK,专门用于简化Agent应用程序的开发,包括:①新的Responses API,将Chat Completions API简单性与Assistants API工具使用功能相结合,用于构建智能体(Agent)。②内置工具,包括网络搜索、文件搜索、计算机使用(Computer Use)。③新的智能体SDK(Agents SDK),用于编排单智能体和多智能体工作流。④集成的可视化工具,用于跟踪和检查智能体工作流执行情况。

Responses API及内置工具:Responses API专为那些希望将OpenAI模型和内置工具轻松组合到应用程序中的开发人员设计。Responses API是一个统一API,可支持多轮交互和工具调用。通过一个Responses API调用,开发人员将能够使用多个工具和模型回合来解决日益复杂的任务。Responses API将支持新的内置工具,如网络搜索、文件搜索和计算机使用。其中,“网络搜索工具”可让模型即时访问互联网信息,与驱动ChatGPT Search是相同模型提供支持。在SimpleQA(一个评估LLM在回答简短事实问题方面准确性的基准)上,GPT-4o和GPT-4o mini的得分分别为90%和88%。

此外,“文件搜索”工具支持多种文件类型、查询优化、元数据过滤和自定义重新排序,它可以提供快速、准确的搜索结果。同样,使用Responses API,只需要几行代码就可以集成。“计算机使用工具”在API中被称为Operator,为了构建能够在计算机上完成任务的代理,开发人员可以在Responses API中使用计算机使用工具,该工具由启用Operator的相同计算机使用代理(CUA)模型提供支持。内置的计算机使用工具捕获模型生成的鼠标和键盘操作,使开发人员能够通过将这些操作直接转换为其环境中的可执行命令来自动化计算机使用任务。

新的Agents SDK。OpenAl新的开源代理SDK简化了多代理工作流的编排,并对Swarm进行了重大改进⁠,改进包括:1)代理:易于配置的LLM,具有清晰的说明和内置工具。2)交接:智能地在代理之间转移控制权。3)护栏:用于输入和输出验证的可配置安全检查。4)跟踪和可观察性:可视化代理执行跟踪以调试和优化性能。Agents SDK适用于各种现实世界的应用程序,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售勘探。Agents SDK可与Responses API和Chat Completions API协同工作。同时,该SDK也支持其他提供商的模型,只要它们提供Chat Completions类型的API端点。

1.3 Google公开发布Gemini 2.0的图像生成功能

3月12日,Google发布了Gemini 2.0的图像生成功能,此项功能使得Gemini 2.0 Flash具备了结合多模式输入、增强推理和自然语言理解来创建图像的能力。据Google官方披露,Gemini 2.0 flash的图像生成能力主要围绕四大核心功能展开,分别是文图融合、对话式图像编辑、基于世界理解的图像生成和文本渲染。

文图融合:此功能允许用户轻松为故事、文章配图,并能通过简单对话指令调整图像风格。这对内容创作者而言,无疑是简化了创作流程。对话式图像编辑:Gemini 2.0 Flash通过多轮自然语言对话帮助你编辑图像,一句话就能改变图片内容。世界知识理解:与许多其他图像生成模型不同,Gemini 2.0 Flash不只是会画画,它还可以利用世界知识和增强的推理能力来创建恰当的图像。文本渲染:内部基准测试表明,2.0 Flash与领先的竞争模型相比具有更强的渲染能力,能够准确地在图像中呈现文字,非常适合创建广告、社交媒体帖子等。

北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;下游需求不及预期影响公司正常生产和交付,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。

来源:点滴财学

相关推荐