AI中场战事:阶跃星辰加速卷Agent落地

B站影视 2025-02-24 18:08 1

摘要:如同一场祛魅仪式,DeepSeek以高效率和低成本的方式,验证了强化学习路线的可行性,从而打破了OpenAI、Anthropic等头部闭源大模型的技术垄断。从今以后,大家都可以通过蒸馏的方式,获得高质量数据和性能媲美头部模型的小参数模型。

DeepSeek爆火,让整个大模型行业重燃对技术的热情。

如同一场祛魅仪式,DeepSeek以高效率和低成本的方式,验证了强化学习路线的可行性,从而打破了OpenAI、Anthropic等头部闭源大模型的技术垄断。从今以后,大家都可以通过蒸馏的方式,获得高质量数据和性能媲美头部模型的小参数模型。

开源在行业中蔚然成风,“六小虎”之一的阶跃星辰,不久前接连发布两款最强开源多模态。截至目前,阶跃星辰已经是业内基座模型矩阵最全面的公司之一。

据光子星球了解,阶跃星辰图生视频开源模型,即将在3月份发布。“视觉+推理”方向的新模型,也正在加紧研发当中。

技术上的开源,让构建应用和场景落地变得更简单。阶跃星辰创始人、CEO姜大昕判断,由于多模态能力和慢思考能力的双重突破,Agent已经来到了爆发的临界点。

“每个人都希望有一个Jarvis,这一愿望也许将在不久实现。”

姜大昕表示,无论是AI手机、PC、智能汽车、IoT设备还是机器人,未来每一台终端设备都将会有一个Agent。Agent会用多模态的方式与人类交互,帮助我们完成复杂任务。

押注智能终端和垂类场景Agent方向,阶跃星辰打响今年大模型技术应用的第一枪。

2月21日,在首届Step UP生态开放日上,阶跃星辰再次阐述技术进化路线图,并宣布与吉利汽车集团、OPPO、智元机器人等企业合作关系。同时,与新零售、金融财经、内容创作、数字人等产业合作伙伴,共同打造垂直场景下C端应用,探索B端业务AI生产力新价值。

从多模态到Agent

阶跃星辰是国内少有在入场初期,就有清晰路线规划图的公司。按照其AGI路线图,分为三个阶段,模拟世界、探索世界和归纳世界。

具体来看,在模拟世界的阶段,训练大模型的主要范式是模仿学习。学习各种模态的表征,包括从文本、声音、图像、视频一直到4D时空的物理世界。需要解决的关键问题是,如何用神经网络统一表征,统一从简单到复杂的各种模态。

当模型学会了表征世界以后,下一步就要培养模型解决问题的能力,比如解数学题、写代码,以及泛化到各个领域的复杂问题,这就是探索世界阶段。智能的下一个阶段,是机器通过自主学习,主动发现物理规律。

目前,阶跃星辰已经形成了从千亿参数到万亿参数,从语言模型到多模态模型,从多模理解到多模生成,从模仿学习到强化学习的模型矩阵。

伴随开源程度的加大,阶跃星辰过去在多模态领域的积累被更多人看到。

开源的文生视频Step-Video-T2V,参数量300亿,可直接生成204帧、分辨率540P的高质量视频,是目前世界参数量最大的开源视频生成模型。Step-Audio是行业内首个产品级的开源语音交互模型,参数量达到1300亿。在LlamaQuestion、Web Questions等几个主流公开测试集中,模型性能均超过了行业内同类型开源模型。

OpenAI o1、DeepSeek-R1诞生后,大模型篇章翻到新一页,迈入推理时代,也是阶跃星辰预判的“探索世界”阶段。可以说,从过去到现在,阶跃星辰一直在既有的轨道行驶。

其和清华大学合作推出的Open-Reasoner-Zero,背后也采用了和OpenAI的o系列模型类似的强化学习算法。在原有基础上,该模型实现了推理能力和效率的同步提升。例如在GPQA(专为研究生级别设计的问答基准数据集)上,仅用4%迭代次数,就超越了相同尺寸模型采用DeepSeek-R1-Zero方案的分数,其训练效率提高了25倍。据悉,这一探索的所有实验结果、代码、数据以及论文也都计划开源。

此外,阶跃星辰正在研发“视觉推理模型”,把强化学习的方法引入到视觉领域,实现在视觉空间下的慢思考。DeepSeek-R1能力停留在文本模型层面,但视觉和文本一样,遇到复杂问题还是需要思维链和推理。比如,沿着箭头行人要到达某个商店,要达到目的地,就需要连续跟着箭头移动,这就是视觉慢思考过程。

至此,阶跃星辰完成了在多模态和推理能力的突破积累。姜大昕认为这恰恰是Agent爆发的两个必要条件。

他解释,多模态能力能让智能体充分感知和理解世界,也能更好地理解用户任务。此外,要想提升任务完成率,Agent还需要强大的推理能力,也就是所谓的慢思考。

基于上述的判断,阶跃星辰最新发力方向,放在了智能终端Agent和垂类Agent上。近期,手机、PC、智能汽车、IoT设备以及机器人在AI加持下,隐隐有爆发之势。智能终端Agent成为重中之重,推演智能终端Agent发展,姜大昕划分为了五个阶段。

Level 1是能够完成简单任务,往往是一个App就能完成的任务,例如打开支付宝,在蚂蚁森林里收集能量;Level 2是能够完成组合任务,可能需要多个步骤,跨越多个App;Level 3是完成复杂任务,需要深度思考能力,具体案例可参考OpenAI发布的“Deep Research”功能。

Level 4执行任务,从被动完成任务变成可以主动提示或完成任务,这需要对用户环境以及用户偏好有非常深入的了解;Level 5从智商上升到情商,可以理解用户在物理世界发生的种种,做到感同身受,提供情绪价值和情感陪伴。

布局Agent端侧全产业

阶跃星辰的智能终端Agent第一步落子,重点布局“车+手机+IoT+具身智能”端侧全产业。

四个细分领域未来发展都需要依赖高级Agent的“智商+情商”。在服务于人的过程中,既需要智能解决出行、生活、工作的大小问题,也时刻处于人与机器和人与人的关系之中。当硬件具备的人的情感,将有机会重构终端与人的关系。

Agent代表着一种全新的分发逻辑,它就像一个集中接收器,可以让终端绕过细分应用,直接给用户提供服务。Agent作为中台的角色,统一指挥调度,每个硬件就负责触达用户和解决问题。于是,统一的软硬一体生态供给和服务变成了关键,生态越完善,用户所能享受到的便利就越多。

届时,用户将不在乎服务的提供商是谁,需要的是可靠、高性能和低价的服务,硬件的重要性就会进一步凸显。

阶跃星辰大模型技术的产业落地,可能也是Agent生态形成的第一步。

面向智能汽车,阶跃星辰与吉利汽车集团、千里科技深化技术合作,共同推动“AI+车”的深度融合。此前,阶跃星辰与吉利联合开源了Step系列模型。吉利在整车制造、智算平台、卫星网络等领域具有基建优势,千里科技的产品创新能力以及阶跃星辰在多模态大模型的技术积累,三方将构建包含“算力中心、大模型、智能架构、智驾、智舱、芯片、手机、卫星、飞行器”的完整智能化生态。

车正在从单纯的行驶工具变为垂直应用场景,几乎每个域(动力、底盘、座舱、自动驾驶、车身)都为Agent落地提供了诸多想象力。用户感知最明显是座舱域的交互。

座舱智能化喊了很多年,此前能实现的功能依然很表面,停留在空调温度控制和按摩档次简单需求。当大模型决策能力和用车环境、用户需求和具体场景结合,应该做到提前预判。用车的过程中,用户还没提要求,大模型已经在悄无声息中解决了潜在的问题。

另一方面体现在类人情感化上,吉利已经和阶跃多模态大模型进行了很多探索。把文本、语音、视频能力融合,结合用户用车情绪做交互,进一步提升用户的愉悦程度。未来,当用户的用车时间变长,车可能就从交通工具转变为第三空间。人与车的关系被重构后,随之也将延伸出更多情感陪伴的需求。

面向手机终端,阶跃星辰与手机厂商共建,将Agent技术深度集成到手机中,共同打造更好的交互体验。2月19日,OPPO推出的旗舰机型OPPO Find N5背后就搭载了阶跃星辰多模态大模型。

包括苹果在内的手机厂商都在找寻大模型合作伙伴,打造类Apple Intelligence功能。智能手机几乎变成了用户刚需,因为高频和快速反应,对多模态能力要求更高。阶跃星辰自身的智能助手“跃问”曾做过尝试,把视觉搜索功能“拍照问”接入了iPhone16的相机控制按钮。

OPPO智能助理部部长、小布助手负责人万玉龙表示,随着新一代AI技术与移动终端的深度融合,手机已经逐步进化为能够理解用户意图、提供主动服务、甚至预判用户需求的智能助理。

基于阶跃Step系列多模态模型,OPPO打造了“一键问屏”和“一键全能搜”两大AI手机功能。用户使用小布助手App,可以通过多模态视觉跟AI交互,实现拍照问答、文档问答,识屏问答等多种功能。此外,用户只需对小布助手下达指令,AI就可以独立进入各种App端完成任务,比如一键搜所有。

此外,在具身智能领域,阶跃星辰宣布了与智元机器人的战略合作,共同探索AI+具身机器人应用场景。

在IoT终端,其通过生态开放的方式,与包括TCL在内的一系列IoT平台和设备厂商协作,推动设备间的智能化升级和体验的无缝连接。

与行业共建

此前,阶跃星辰与开发者合作将多模态技术运用到AI应用开发中,打造过一系列爆款。

“物圆”是国内首个面向C端用户的AI电商应用;“胃之书”冲上App Store美食类畅销榜前三名;“林间聊愈室”获苹果应用商店编辑推荐;ChatPPT⾃有注册用户突破300万,累计服务B端平台用户超千万。

此次与金融财经、内容创作、新零售、数字人的合作,可以视为进一步深入产业的动作。大模型技术从实验室走向行业场景,一方面验证技术积累的能力,另一方面也是加速大模型商业化,形成技术到应用的正向创新反馈路径。

活动当天,阶跃星辰与咖啡连锁品牌瑞幸咖啡、通用GPU高端芯片及超级算力系统提供商天数智芯共同宣布达成战略合作。国内首个集新零售品牌、基座模型公司、算力服务商三方于一体的“AI+新零售”合作模式,打通了从技术研发到消费场景的闭环。

在金融财经领域,2024年,阶跃星辰跟上海报业旗下界面财联社达成深度战略合作,联合创办大模型科技公司财跃星辰,率先探索大模型在金融财经领域的应用。

在B端,结合界面财联社的金融信息服务优势和阶跃星辰的通用大模型技术,整合行业数据、行业经验和大模型底座能力,致力于为金融机构、投资机构、个人投资者等提供数据、算力、模型、应用、智能体等一站式解决方案。

在C端,双方合作推出了“AI小财神”智能体应用,主打AI数据挖掘、AI对话、AI热点信息解读等功能。目前,该款应用已经上线了“深度思考”模式。面对复杂的投资理财问题,“AI小财神”会先进行思考,再回复用户。用户能看到大模型的推理路径,以及援引信源和数据库。

随着时间的推移,人们开始形成共识,大模型这件事不是单打独斗,生态的重要性越来越凸显。

开源的大模型生态允许全球开发者共同参与代码优化,使得模型的性能提升不再局限于单个团队的智慧。

在应用拓展层面,大模型生态正在与千行百业深度融合。不同领域的企业可以基于大模型开发出适配自身业务特点的专业应用,释放技术创新潜力。通过与开发者紧密合作,深度融入各个行业场景,阶跃星辰正在构建一个开放、共赢的大模型生态系统。

积极拥抱开源,坚持在AGI的技术路线上继续前行,牵手合作伙伴共创产业价值,这将是阶跃星辰接下来继续前进的底气。

来源:光子星球

相关推荐