摘要:今日,在FORCE原动力大会上,火山引擎推出豆包大模型1.6、豆包·视频生成模型Seedance 1.0 pro、豆包·语音播客模型,还升级了Agent开发平台等AI云原生服务。
作者 | 王涵
编辑 | 漠影
智东西6月11日报道,今日,在FORCE原动力大会上,火山引擎推出豆包大模型1.6、豆包·视频生成模型Seedance 1.0 pro、豆包·语音播客模型,还升级了Agent开发平台等AI云原生服务。
豆包大模型1.6系列包含三个模型,分别为doubao-seed-1.6、1.6-thinking以及1.6-flash,其中1.6-thinking在推理能力和指令执行测评中超越DeepSeek-R1-0528。
在价格方面,豆包1.6变为按“输入长度”区间定价,深度思考、多模态能力与基础语言模型统一价格。在企业使用量最大的0-32K输入区间,豆包1.6的输入价格为0.8元/百万tokens、输出8元/百万tokens,综合成本只有豆包1.5深度思考模型或DeepSeek R1的1/3。
豆包·视频生成模型Seedance 1.0 pro首次在评测榜单Artificial Analysis的文生视频、图生视频两项任务上均排名首位,超越Veo3、可灵2.0等多模态模型。
并且,Seedance 1.0 pro模型每千tokens仅0.015元,每生成一条5秒的1080P视频只需3.67元,相当于1万元预算可以制作2700多条5秒的1080P视频,被火山引擎称为“业界最低”。
此外,火山引擎AI云原生全栈服务升级,推出了火山引擎MCP服务、PromptPilot智能提示工具、AI知识管理系统、veRL强化学习框架等面向 Agent 开发和应用的工具产品,并推出多模态数据湖、AICC私密计算、大模型应用防火墙,以及一系列AI Infra套件。
火山引擎最新数据显示,豆包大模型日均tokens使用量超过16.4万亿,较去年5月首次发布时增长137倍。另据知名行研机构IDC报告,豆包大模型在中国公有云大模型市场份额排名第一,占比高达46.4%。
一、豆包大模型1.6推理测评超DeepSeek-R1,使用成本降至1/3据悉,豆包大模型1.6系列包含三个模型,分别为doubao-seed-1.6、1.6-thinking以及1.6-flash,并且这三个模型都支持256K上下文。doubao-seed-1.6是All-in-One的综合模型,深度思考、多模态理解、图形界面操作等多项能力。用户可以选择开启或关闭深度思考、自适应思考三种方式,其中自适应思考模式可根据提示词难度自动决定是否开启思考,提升效果的同时大幅减少tokens消耗。
doubao-seed-1.6-thinking是豆包大模型1.6系列在深度思考方面的强化版本,在代码、数学、逻辑推理等基础能力上有进一步提升。doubao-seed-1.6-flash是豆包大模型1.6系列的极速版本,支持深度思考和多模态理解。比较有特点的是,flash的延迟极低,TOPT仅需10毫秒,火山引擎称其视觉理解能力比肩友商旗舰模型。
智东西从现场了解到,豆包大模型1.6-thinking在推理能力、多模态理解能力、GUI操作能力上较1.5 pro有一定提升,其在GPQA Diamond(推理能力)和Multichallenge(指令执行)榜单上超越DeepSeek-R1-0528,与OpenAI-03-high的差距也在逐步缩小。
1.6系列模型支持多模态理解和图形界面操作,能够理解和处理真实世界问题,该能力支持了豆包APP最新的实时视频通话功能,在企业端可广泛应用于电商商品审核、自动驾驶标注、安全巡检等场景。
豆包1.6的图形界面(GUI)操作能力可以帮助用户完成一系列“智能体”类的跨平台操作能力。演示案例显示,豆包1.6可自动操作浏览器完成酒店预定,识别购物小票并整理成Excel表格等任务。
豆包大模型1.6在推理速度、准确度与稳定性上也有明显提升。豆包大模型1.6具有边想边搜、DeepResearch深度研究能力,能独立思考、规划、使用搜索等各种研究工具,可以在5-30分钟内生成一份调研报告。
据悉,目前豆包大模型已涵盖多模态、视频、图像、语音、音乐等模型品类。在行业应用上,豆包大模型已与全球TOP10手机厂商中的9家、8成主流汽车品牌、70%的系统重要性银行及超5成985高校等达成合作。
为方便企业使用,火山引擎还推出大模型应用实验室,并开源了手机助手、实时视频理解、DeepSearch等应用,帮助企业快速搭建AI应用原型,编排专属智能体。用户可在火山引擎官网大模型应用实验室、GitHub方舟开源站点下载使用。
豆包视频生成模型Seedance 1.0 pro也在原动力大会上亮相。该模型具备三大特性:无缝多镜头叙事、多动作及随心运镜、稳定运动与真实美感。Seedance支持文字与图片输入,可生成多镜头无缝切换的1080P高品质视频,主体运动稳定性与画面自然度较高。
在评测榜单Artificial Analysis上,Seedance在文生视频、图生视频两项任务上均排名首位,超越Veo3、可灵2.0等多模态模型。
原动力大会上还宣布,豆包·实时语音模型全量上线火山方舟,对企业客户开放使用。该模型支持自然语言高级指令控制,具备唱歌表演、声线模仿、方言演绎等多种能力,在语气、用语、思考方式等方面更加拟人。
此外,豆包·语音播客模型也同时发布。用户输入对话、网页链接、长文本或文档,语音播客模型即可生成播客脚本后创作出双人对话式播客作品。此外,播客模型自带的深度搜索功能还可以生成跟进热点话题的播客内容。
火山引擎智能算法负责人吴迪认为,要构建高生产力的Agent,既要用好AI,整合高质量的应用;又要做好AI,关注底层技术本身的优化和创新。为此,此次火山引擎带来了12款Agent开发工具产品的发布和升级,分别是TRAE、MCP(模型上下文协议)服务、提示词优化应用PromptPilot、AI知识管理产品以及开源veRL强化学习框架,还有多模态数据湖、AICC私密计算、大模型应用防火墙,以及一系列AI Infra套件。
首先,AI IDE产品TRAE迎来进一步升级,可以为开发者提供代码补全、局部代码生成功能,还支持代码重构、批量修改、知识问答等复杂任务。吴迪在会上透露,TRAE下一个版本还将整合不同Agent和工具,协调任务流程,实现自动串联操作,逐步从AI辅助编程向支持AI开发全流程进阶。据字节跳动技术副总裁洪定坤爆料,在字节内部,超过80%的工程师在使用TRAE辅助开发。自今年1月上线以来,TRAE的整体月活用户已经超过了100万。
火山引擎MCP服务正式发布,链接Agent开发体系、大模型工具生态、云服务,打通TRAE、 火山方舟和扣子,提供200+MCP服务。开发者可以通过MCP,控制火山引擎的云服务组件,完成计算、网络、存储等环境部署。
吴迪认为:模型越强,提示词越重要。提示词优化应用PromptPilot可以在互动中引导用户明确需求,自动撰写和优化提示词,可以积累案例自动优化提示词。同时,该应用还具备多轮对话、视觉理解、复杂工具调用的优化能力,还可以自主判断是否开启模型精调等。
为解决企业知识管理问题,火山引擎正式发布AI知识管理产品,该款产品支持文本、图像、音频、视频等多模态内容对话式交互,可以结合本地与互联网知识,提供内容理解和问答服务,推出可交互的推理“做个计划”功能,实现人机协作制定、修改计划。该产品目前已在火山引擎全量邀测。
吴迪提到,多步骤复杂任务的成熟和落地是2025年的重要趋势。最后,火山引擎在会上发布了开源veRL强化学习框架。veRL可扩展多种强化学习算法,无缝集成现有LLM基础设施与模块化API,开发者可以借此搭建RL模型开发管线,提升对话规划、智能编程、复杂策略优化等场景的开发效率与资源利用率。 除了提供开源框架,此次火山引擎还上线了veRL平台,支持强化学习需求。
此外,在数据基础设施方面,火山引擎推出多模态数据湖解决方案和Data Agent。多模态数据湖是新一代AI Native的数据基建,该解决方案可以帮助企业在多模态数据处理、检索和分析场景上,识别和利用多模态数据资产,驱动企业AI模型训练与决策。Data Agent具备数据主动分析、智能洞察、策略生成能力,可将日常取数速度从小时级到分钟级,数据获取成本降低80%。该产品的复杂分析效率可以从周级到小时级,洞察及时性提升90%,可以大幅节省深度分析报告、方案等的产出时间和人力成本。
在AI基础设施方面,火山引擎AI infra推出AgentKit,为企业级Agent打造的全栈开发和服务工具链。AgentKit基于火山引擎veFaaS预置模板,集成了豆包大模型1.6与Computer Use等工具,用户只需选择模型和配置参数即可快速部署,实现分钟级10万核扩容。AgentKit还可以构建完整工具生态体系,支持多终端Tool Use、覆盖数十类三方MCP Server。
训练套件TrainingKit则面向后训练环节,可以实现高达60%+的MFU(算力利用率),通过veRL框架、 Sandbox百万核秒并发能力,可以有效提升后训练效率。以及,推理套件ServingKit可以从模型部署、在线推理、服务运维三个阶段进行加速和提效,支持开源推理框架,并针对主流模型进行算子优化,性能相比社区最新版本可以提升2-3倍。
安全是一切Agent运行的基础,针对企业数据和用户隐私保护,火山引擎还推出两款AI安全产品。AICC密态计算可以通过用户个人密钥加密、CPU/GPU硬件可信环境计算、数据流转落盘全密文的方式,让企业在不损失推理效果的前提下,安全合规地使用云端模型。另外,大模型应用防火墙则可以通过精调的小参数模型、分层漏斗策略、流式送检机制,保障精准拦截攻击变种,同时不会增加推理延迟。
字节跳动在FORCE原动力大会上发布的AI产品矩阵,揭示了其以“模型能力+工具链+基础设施”为核心的产业智能化路径。从豆包大模型1.6的架构升级到视频生成、语音交互等全模态能力的突破,再到AI云原生全栈服务的系统化构建,字节跳动的AI战略已形成从模型研发到应用落地的闭环。
随着Agent等智能体逐步渗透企业生产流程,字节跳动的AI生态或将进一步推动行业效率提升与创新模式变革,为AI产业发展提供新的范式参考。
来源:智东西