英伟达CES王炸不断;AMD新品亮相CES;智元机器人首创4D世界模型

B站影视 2025-01-15 18:40 3

摘要:PixVerse V3.5引入了Turbo极速生成模式,据官方介绍,这使其成为全球首个接近实时生成的高质量AI视频模型。该模式可将视频生成的平均时间缩短至惊人的10秒,最快甚至可以5秒生成视频。这一速度的提升,不仅极大地提高了用户的创作效率,也为AI视频创作的

Veryken前沿行业动态|AI·半导体·电子消费品|动力电池|储能|新能源汽车|光伏

国内AI视频创业公司爱诗科技近日宣布其核心产品PixVerse的V3.5版正式上线,为行业带来了新的突破和惊喜,综合能力甚至吊打Sora。

高速生成,效率大幅提升

PixVerse V3.5引入了Turbo极速生成模式,据官方介绍,这使其成为全球首个接近实时生成的高质量AI视频模型。该模式可将视频生成的平均时间缩短至惊人的10秒,最快甚至可以5秒生成视频。这一速度的提升,不仅极大地提高了用户的创作效率,也为AI视频创作的实时性应用提供了可能,如在直播、实时互动等场景中快速生成视频内容。

运动控制优化,效果更加自然

在运动控制方面,PixVerse V3.5表现出色。以往的视频模型在处理大幅度动作时,常常会出现扭曲变形的情况,而PixVerse V3.5在这方面下了功夫,能更好地控制人物的发力点和运动轨迹,使动作更加自然流畅。

多风格动漫效果,创作更加丰富

PixVerse V3.5支持多种风格的动漫效果,用户可以通过文生视频描述特定风格,或上传各类动漫/动画图片,再输入提示词,创作出精彩的内容。界面上支持选择动漫、3D动画、Comic、Cyberpunk、粘土5种风格,同时支持文生视频或图生视频两种操作方式。这为用户提供了更多的创作选择,能够满足不同用户在不同风格下的创作需求。

首尾帧功能,创新视频生成方式

除了上述功能,PixVerse V3.5还新增了一项创新功能——首尾帧生成。用户只需上传两张图片,描述变化过程,即可生成流畅的过渡视频。这一功能为视频创作提供了新的思路和方法,用户可以通过简单的图片输入,快速生成具有创意和故事性的视频内容。

特效丰富,新手友好

PixVerse V3.5自带27种特效,这些特效不仅种类丰富,而且使用简单,适合新手用户上手。用户只需添加图片并点击特效栏,即可一键生成高质量的视频。这些特效不仅能够提升视频的视觉效果,还能为视频创作增添趣味性和吸引力。(钛媒体)

【英伟达CES王炸不断:RTX 5090显卡,AI超算,开源世界模型,下一代汽车处理器,人形机器人大脑】

在近日的CES展会上,英伟达CEO黄仁勋带来一场震撼全场的主题演讲,发布了一系列重磅产品和技术,涵盖了GPU、AI、自动驾驶和人形机器人等多个领域。

RTX 5090显卡震撼发布

RTX 5090的核心配置及性能表现

英伟达发布的RTX 5090显卡是迄今为止最快的GeForce RTX GPU,拥有920亿个晶体管,每秒可实现3352万亿次AI运算(3352 AI TOPS),380 RT TFLOPS和125 Shader TFLOPS。RTX 5090配备32GB GDDR7显存,显存位宽512位,CUDA核心数量达到21760,功耗为575W。在Blackwell架构创新和DLSS 4的加持下,RTX 5090的性能比RTX 4090高出2倍,售价也高达1999美元。

RTX 50系列其他显卡的配置和性能

除了RTX 5090,英伟达还发布了RTX 5080、RTX 5070Ti和RTX 5070显卡。RTX 5080设计目标是性能达到RTX 4080的两倍,配备16GB的GDDR7显存,内存带宽为960GB/秒,以及10752个CUDA核心,售价999美元(约7319元人民币)。RTX 5070Ti售价749美元(约5488元人民币),RTX 5070售价549美元(约4022元人民币)。

新一代DLSS 4技术的突破

新一代DLSS 4技术首次推出多帧生成功能,通过使用AI为每个渲染帧生成多达3帧来提高帧速率。DLSS 4与DLSS技术套件协同工作,性能提高了8倍,同时通过NVIDIA Reflex技术保持响应速度。DLSS 4还引入了图形行业首个Transformer模型架构的实时应用,基于Transformer的DLSS光线重建和超分辨率模型使用2倍以上的参数和4倍以上的算力,以在游戏场景中提供更高的稳定性、更好的重影、更高的细节和增强的抗锯齿效果。发布当天,DLSS 4将在超过75款游戏和应用程序中支持RTX 50系列GPU。

AI超级计算机Project Digits亮相

Project Digits的硬件配置和性能特点

Project Digits是英伟达推出的个人AI超级计算机,搭载GB10 Grace Blackwell超级芯片,可提供高达petaflop级别的计算性能。每个Project Digits单元具有128GB内存和高达4TB的NVMe存储,能运行多达2000亿参数的大型语言模型。通过NVIDIA ConnectX网络,还可将两台Project Digits AI超级计算机连接起来,运行多达4050亿参数的模型。

Project Digits的应用场景和目标用户群体

Project Digits专为AI研究人员、数据科学家和学生设计,可用于原型设计、微调和运行AI模型。用户可以使用自己的桌面系统开发和运行模型推理,然后在加速云或数据中心基础设施上无缝部署模型。Project Digits不仅是一款强大的计算设备,还可以作为专业工作站,实现“开箱即用”。

Project Digits的上市时间和定价情况

Project Digits将于2025年5月通过英伟达的顶级合作伙伴推向市场,起售价为3000美元。这款设备的推出将使AI超级计算变得更加触手可及,为全球的AI研究者和开发者提供强大的计算支持。

物理AI模型Cosmos发布

Cosmos模型的功能和特点

英伟达发布的物理AI模型Cosmos能生成照片般逼真的视频,用于训练机器人和自动驾驶汽车,成本比使用传统数据低得多。Cosmos模型提供Nano、Super和Ultra三种尺寸,涵盖从PC和边缘设备到大型数据中心等所有领域。该模型以开源形式发布,首批用户包括1X、Agile Robots、Agility等十余个国内外机器人和汽车厂商。

Cosmos模型在工业自动化、自动驾驶等领域的应用前景和潜在价值

在工业领域,Cosmos可以模拟工厂运营,生成合成数据用于训练机器人,提高生产效率和质量。在自动驾驶领域,Cosmos能将数千次真实驾驶数据扩展为数十亿英里的训练数据,提升自动驾驶汽车的安全性和可靠性。黄仁勋表示,未来每家工厂都会有一个数字孪生,每个数字孪生的运作方式都与真实工厂完全一样。

英伟达在物理AI领域的战略布局和未来发展方向

英伟达通过Cosmos模型推动物理AI的普及化,让每个开发者都能用上通用机器人技术。Cosmos模型的开源发布,将促进物理AI系统的发展,加速智能汽车、具身智能等AI终端的普及。英伟达还宣布推出基于Llama的一系列模型,包括Llama Nemotron Nano、Super和Ultra,涵盖从PC和边缘设备到大型数据中心等所有领域。

下一代汽车处理器Thor投产

Thor处理器的性能和功能提升

英伟达的下一代汽车处理器Thor已全面投入生产,其计算能力是上一代Orin的20倍,适用于传统机器人和自动驾驶汽车。Thor处理器的投产,将为自动驾驶汽车和机器人技术的发展提供强大的计算支持。

英伟达在汽车芯片市场的布局和竞争态势

英伟达在汽车芯片市场的布局不断深化,与丰田等汽车厂商合作,生产下一代自动驾驶汽车。黄仁勋表示:“随着Waymo和特斯拉的成功,很明显自动驾驶汽车已经到来。”英伟达的Thor处理器将助力自动驾驶汽车的普及,提升其在汽车芯片市场的份额和影响力。

英伟达与丰田等汽车厂商的合作情况

在CES 2025上,英伟达宣布丰田将与其合作生产下一代自动驾驶汽车。这一合作将进一步巩固英伟达在自动驾驶领域的领先地位,推动自动驾驶技术的商业化应用。此外,英伟达还展示了其众多汽车合作伙伴,包括国内巨头比亚迪、理想、小米、极氪等。

人形机器人大脑Jetson Thor前瞻

人形机器人大脑Jetson Thor预期将在上半年推出,作为人形机器人的大脑支持复杂的动作和任务执行。

英伟达在人形机器人技术方面的研发进展和创新成果

英伟达在人形机器人技术方面的研发进展显著,展示了十多款不同公司的AI机器人,并展示了如何协助训练这些AI机器人。英伟达采用逼真物理环境对机器人进行训练的尝试,如2024年6月的RoboCasa仿真框架,提供了超过150个物体类别的数千个3D模型和数十种可交互的家具和家电,证明了合成物理数据在机器人训练中的有效性。

人形机器人行业的ChatGPT时刻的到来

人形机器人行业的ChatGPT时刻即将到来,世界基础模型是推动机器人和自动驾驶汽车开发的基础。英伟达创建Cosmos是为了普及物理AI,让每一位开发者都能接触到通用机器人技术。黄仁勋表示:“世界基础模型是推动机器人和自动驾驶汽车开发的基础,但并非所有开发者都拥有自主训练模型所需的专业知识和资源。我们创建Cosmos是为了让物理AI普及化,让每个开发者都能用上通用机器人技术。”

VeryKen智评:英伟达在CES 2025发布会上的亮点和成果展示了其在AI、自动驾驶、人形机器人等领域的强大实力和战略布局。RTX 50系列显卡、AI超级计算机Project Digits、物理AI模型Cosmos和下一代汽车处理器Thor的发布,不仅为科技行业带来了新的突破,也为英伟达的未来发展开辟了新的增长点。(爱范儿,机器之心,华尔街见闻,财联社)

在人工智能领域,世界模型正成为科技巨头们竞相角逐的焦点。世界模型不仅能模拟物理世界,还能为通用人工智能(AGI)的发展提供关键支持。谷歌近期的动作表明,这场技术竞赛已经进入了一个新的阶段。

谷歌正在组建一个新的团队,专注于开发可以模拟物理世界的人工智能模型。该团队的负责人是蒂姆·布鲁克斯(Tim Brooks),他原先是OpenAI视频生成器Sora的联合负责人之一,于2024年10月离开OpenAI,跳槽至谷歌的人工智能研究实验室谷歌DeepMind。布鲁克斯在社交媒体上表示,他领导的这个新团队将致力于开发可以模拟物理世界的人工智能模型,并正在招聘新的成员来完成这一任务。

新团队的目标是开发“实时交互生成”工具,并研究如何将他们的模型与现有的多模式模型(如Gemini)集成。此外,该团队还将与谷歌现有的Gemini、Veo和Genie团队合作,将模型扩展到“最高水平的计算”。Gemini是谷歌的旗舰AI模型系列,用于分析图像和生成文本等任务;Veo是谷歌的视频生成模型;Genie则是谷歌的基础世界模型,为用户提供了前所未有的交互体验,支持用户借助文本、合成图像、照片乃至草图等方式,创造出可玩性强的交互式环境和可控的虚拟世界。

构建世界模型的意义

构建世界模型的意义重大,它被认为是实现通用人工智能(AGI)的关键途径。世界模型让机器能像人类一样对真实世界有一个全面而准确的认知,从而为视觉推理和模拟、具体化代理的规划以及实时互动娱乐等众多领域提供动力。例如,世界模型可以用于创建互动媒体,如视频游戏和电影,还可以运行逼真的模拟,如机器人训练环境。这不仅能提升相关领域的生产效率,还能激发更多的创造力。

世界模型的竞争格局

世界模型的竞争格局日益激烈,多家科技公司和初创公司纷纷布局。除谷歌外,还有李飞飞的World Labs、以色列的Decart、初创公司Odyssey等。英伟达也发布了物理AI大模型Cosmos,旨在理解和模拟物理世界。

OpenAI虽然在大型语言模型领域取得了显著进展,但其模型在迈向AGI过程中仍存在局限性。世界模型的构建和应用为AGI的发展提供了新的思路和方向,同时也为OpenAI带来了新的挑战。

世界模型发展面临的挑战

尽管世界模型的发展前景广阔,但也面临一些挑战。首先,世界模型对创意产业的冲击不容忽视。例如,游戏工作室和影视动画行业可能出现工作岗位被取代的情况。然而,合作也是一种可能的解决方案。一些新兴的世界模型领域的初创公司如Odyssey,已承诺与有创意的专业人士合作,这或许会成为未来的发展趋势。

此外,版权问题也是世界模型发展的一大障碍。一些世界模型根据视频游戏播放片段等进行训练,这可能引发未经许可使用视频的诉讼风险。谷歌虽然声称有权基于YouTube视频训练模型,但具体采购视频的细节尚未透露。这表明,世界模型的发展需要在技术创新和法律合规之间找到平衡。

VeryKen智评:谷歌发力世界模型标志着科技行业在人工智能领域的一个重要转折点。世界模型不仅为通用人工智能(AGI)的发展提供了新的动力,还为多个行业带来创新的机遇。然而世界模型的发展也面临着诸多挑战,包括对创意产业的冲击和版权问题。未来随着技术的不断进步和这些问题的逐步解决,世界模型有望在推动AGI实现和各领域创新应用中发挥关键作用。(钛媒体,财联社,华尔街见闻)

在具身智能领域,如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是核心科学问题。智元机器人团队近日推出全球首个4D世界模型EnerVerse,这一创新架构通过自回归扩散模型和多项创新技术,显著提升了机器人在未来空间生成和动作规划方面的能力,为具身智能的发展开辟了新路径。

EnerVerse架构的核心技术

逐块扩散生成:Next Chunk Diffusion

EnerVerse采用逐块生成的自回归扩散模型,通过结合时空注意力的UNet结构,每个空间块内部通过卷积与双向注意力建模,块与块之间通过单向因果逻辑保持时间一致性,确保生成序列的逻辑合理性。稀疏记忆机制借鉴大语言模型(LLM)的上下文记忆,训练阶段对历史帧进行高比例随机掩码,推理阶段以较大时间间隔更新记忆队列,有效降低计算开销,同时显著提升长程任务的生成能力。任务结束逻辑通过特殊的结束帧(EOS frame)实现对任务结束时机的精准监督,确保生成过程在合适节点终止。

灵活的4D生成:Free Anchor View (FAV)

针对具身操作中复杂遮挡环境和多视角需求,EnerVerse提出了自由锚定视角(FAV)方法,支持动态调整锚定视角,克服固定多视角在狭窄场景中的局限性。基于光线投射原理,EnerVerse通过视线方向图(ray direction map)作为视角控制条件,并将2D空间注意力扩展为跨视角的3D空间注意力(cross-view spatial attention),确保生成视频的几何一致性。Sim2Real适配通过在仿真数据上训练的4D生成模型(EnerVerse-D)与4D高斯泼溅(4D Gaussian Splatting)交替迭代,构建数据飞轮,为真实场景下的FAV生成提供伪真值支持。

高效动作规划:Diffusion Policy Head

EnerVerse通过在生成网络下游集成Diffusion策略头(Diffusion Policy Head),打通未来空间生成与机器人动作规划的全链条。生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保动作预测的实时性。稀疏记忆队列存储真实或重建的FAV观测结果,有效提升长程任务规划能力。

实验结果与性能表现

视频生成性能

在短程与长程任务视频生成中,EnerVerse均展现出卓越的性能。在短程生成任务中,EnerVerse表现优于现有微调视频生成模型,如基于DynamiCrafter与FreeNoise的扩散模型。在长程生成任务中,EnerVerse展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。此外,EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。

动作规划能力

在LIBERO基准测试中,EnerVerse在机器人动作规划任务中取得显著优势。单视角(one FAV)设定下,EnerVerse在LIBERO四类任务中的平均成功率已超过现有方法。多视角(three FAV)设定下,进一步提升任务成功率,在每一类任务上均超越当前最佳方法。通过可视化Diffusion策略头中的交叉注意力模块,研究发现EnerVerse生成的未来空间与预测的动作空间具有较强的时序一致性。

行业影响与未来展望

EnerVerse通过未来空间生成引导动作规划,突破了机器人任务规划的技术瓶颈,为多模态、长程任务的研究提供了全新范式。EnerVerse在具身智能领域的应用前景广阔,有望在工业、家庭、教育等场景中实现突破。智元机器人与软通动力合作成立的软通天擎,将推动人形机器人在3C制造、交互服务等场景的落地,实现工业数据的真实数据采集,构建面向工业的垂域大模型。此外,智元机器人在灵巧手研发方面也取得了显著进展,19自由度视触觉灵巧手、12自由度五指灵巧手等系列产品的应用,展示了其在高自由度、多类型传感器集成等方面的发展方向。

VeryKen智评:智元机器人推出的EnerVerse模型在具身智能领域取得了重大突破,通过创新的4D世界模型和高效的动作规划技术,显著提升了机器人的未来空间生成和任务执行能力。这一成果不仅展示了智元机器人在技术研究和应用开发方面的领先地位,也为未来具身智能的商业化应用提供了坚实的技术基础。(机器之心,财联社)

AMD携旗下最新一代高端CPU和GPU亮相CES 2025,其中锐龙9000新品凭借卓越的游戏和创作力表现对英特尔旗舰产品构成强大挑战,而锐龙AI Max和AI Max+笔记本电脑芯片则在AI PC领域实现突破。

Radeon RX 9000系列显卡

AMD公布的下一代Radeon RX 9000系列显卡基于最新RDNA 4架构,采用4nm工艺打造。RX 9070 XT和RX 9070显卡配备AMD第二代AI加速器、第三代光线追踪加速器及第二代Radiance显示引擎,性能大幅提升。RDNA 4架构支持FSR 4(FidelityFX Super Resolution 4)升级技术,基于机器学习,专为RDNA 4及其专用AI加速器硬件开发。

AMD推出的Ryzen 9 9950X3D和Ryzen 9 9900X3D两款处理器分别拥有16核32线程和12核24线程的强大配置,并搭配128MB的L3缓存。它们均采用最新一代Zen 5架构,搭配AMD主导的游戏加速X3D技术。

游戏性能强势超越

在游戏领域9950X3D和9900X3D表现尤为亮眼。AMD测试结果显示,9950X3D在40款游戏中,以20%的优势击败英特尔旗舰Arrow Lake Core Ultra 9 285K。此外,9950X3D游戏性能与游戏王者9800X3D相差无几,仅相差1%,较上一代7950X3D提高了8%。

内容创作性能飞跃

在内容创作方面,X3D型号处理器虽因3D V-Cache堆叠设计在标准生产力工作性能上稍低于非X3D处理器,但凭借更多内核,在更吃性能的用例中可提供更高性能。9950X3D和9900X3D堪称全能型处理器,9950X3D在创作者应用中比上代7950X3D快13%,AMD称以10%的领先优势轻松击败英特尔旗舰285K,尽管胜利主要集中在多线程应用程序上。

锐龙AI Max、AI Max+系列芯片

在人工智能领域,AMD展示了用于AI PC的全新Ryzen AI Max、Ryzen AI Max+、Ryzen AI 300和Ryzen AI 200 CPU,以及用于游戏台式机和笔记本电脑以及手持游戏系统的高性能芯片。

AI Max系列芯片专为AI PC设计,旨在为用户提供强大的AI处理能力和卓越的性能体验。这些芯片采用了AMD最新的技术和架构,能高效地处理复杂的AI任务,如自然语言处理、图像识别和机器学习等。AI Max+芯片不仅具备强大的AI处理能力,还通过优化设计实现了更高的能效比,使笔记本电脑在保持高性能的同时拥有更长的续航时间,满足用户对高性能、长续航和智能化的需求,从而进一步推动AI笔记本电脑的普及和发展。

VeryKen智评:AMD锐龙新品的发布对英特尔在消费级CPU市场的竞争态势造成冲击,进一步加剧了PC处理器市场的竞争,将改变2025年显卡市场竞争格局。在英伟达显卡价格高企的当下,AMD新显卡有望凭借性价比优势占据市场。(机器之心,华尔街见闻)

2025年1月7日开幕的全球消费电子展(CES)上中国参展商数量达1300余家,创历史新高。AI技术在消费电子领域的应用成为本届展会的焦点之一,尤其是AI眼镜和AI教育产品。

AI眼镜成为主力军

在AI眼镜领域,中国厂商在CES上的展台人气极高。LookTech展示了一款外观与Ray-Ban Meta高度接近的产品,但其重量轻至37g,续航达14小时。

雷鸟创新发布了最新的X3 Pro AR眼镜,使用全彩MicroLED投影显示,最高支持2500nit亮度输出,确保用户在阳光强烈的室外也能清晰阅读显示屏上的内容。

XREAL则展示了国内尚未发布的 XREAL One Pro,将XREAL One的视场角从50° 提升至57°。

这些产品不仅在硬件规格上进行了显著提升,还支持多种AI模型,如OpenAI ChatGPT和Google Gemini,提供了更广泛的使用场景和更高的灵活性。

Ray-Ban Meta作为AI眼镜领域的先行者,其产品在设计和功能上具有一定的优势,但中国厂商的产品在性价比和功能多样性上更具竞争力。许多国外企业尤其是美国和欧洲的小品牌依赖中国的供应链来生产AI眼镜。中国厂商在核心部件上也逐渐摆脱了对国外高端芯片的依赖,进一步降低了生产成本。

AI教育产品崭露头角

在AI教育领域,中国企业也展现了强大的实力。学而思学习机在CES上展示了其AI教育产品,其AI批改功能和个性化学习体验为学生提供了更高效的学习方式,背后是千亿级数学大模型学而思九章大模型(MathGPT)。这种个性化和互动性的提升,不仅提高了学生的学习效果,也减轻了家长的辅导负担。

AI教育在全球市场的增长趋势显著。美国亚利桑那州批准成立了一所完全在线的学校,面向四年级至八年级的学生,每天提供两个小时完全由人工智能教授的标准科目课程。根据贝哲斯报告的预测,到2029年,全球在线教育市场中仅K-12教育的规模将达8991.59亿元,年均复合增长率7.89%。美国市场研究机构Adroit Market Research给出的预测数字更大,认为到2029年这一市场规模将达3226.8亿美元,年均复合增长率接近20%。(极客公园,量子位,界面新闻)

麻省理工学院科技评论(MIT Technology Review)近期发布了对2025年AI技术的预测,以下是一些值得关注的重点趋势:

生成式虚拟世界

2023年是生成式图像元年,2024年是生成式视频元年,2025年则有望成为生成式虚拟世界元年。谷歌DeepMind 在2024年2月展示了Genie模型,能将静态图像转化为可交互的2D平台游戏,12月Genie 2模型进一步升级,能从初始图像生成整个虚拟世界。其他公司如Decart和Etched也在开发类似技术,这些技术不仅可用于视频游戏设计,还可用于训练机器人,帮助它们更好地理解和互动现实世界。

大型语言模型的“推理”能力

OpenAI在2024年9月推出的o1模型和随后的o3模型引入了新的工作范式,使大型语言模型能逐步解决问题,而不是直接输出首个答案。这种“推理”技术提高了模型在数学、物理和逻辑问题上的准确性,对智能代理(agents)的发展至关重要。谷歌DeepMind也在开发类似技术,如Mariner实验性网络浏览代理和Gemini 2.0 Flash Thinking模型,这些技术将使AI在各种任务中表现更加出色。

AI在科学研究中的应用

AI在自然科学研究中的应用将继续加速。2024年10月谷歌DeepMind的Demis Hassabis和John M. Jumper因AlphaFold工具获得诺贝尔化学奖,该工具能解决蛋白质折叠问题。未来AI将在材料科学等领域发挥更大作用,如Meta发布的大型数据集和模型,以及Hugging Face与Entalpic合作的LeMaterial项目,旨在加速材料研究。AI模型制造商也将继续推动其生成式产品作为科学研究工具,帮助科学家更高效地进行研究。

AI与国家安全的融合

AI公司在国家安全领域的应用将更加广泛。美国军方已启动多个项目,如Replicator计划和人工智能快速能力单元,旨在将AI应用于战场决策和后勤等领域。欧洲各国也在增加技术投资,以应对地缘政治紧张局势。2025年国防科技公司如Palantir和Anduril将继续利用机密军事数据训练AI模型,主流AI公司也将被吸引进入这一领域,如OpenAI与Anduril的合作,标志着其政策的重大转变。

AI芯片市场的竞争

英伟达在AI芯片市场长期占据主导地位的局面在2025年可能发生变化。亚马逊、博通、AMD等巨头正大力投资能在推理任务中与英伟达产品竞争的新芯片,同时Groq等初创公司正在开发全新的芯片架构,虽然这些实践仍处于早期阶段,但可能会改变AI芯片市场的格局。此外地缘政治因素也将影响芯片市场,如美国对华出口限制和芯片法案对国内半导体生产的推动,都将促使芯片制造商减少对台湾的依赖。(麻省理工学院科技评论)

北京智源人工智能研究院近日发布了《十大人工智能技术及应用趋势》报告,揭示了未来一年内AI领域的关键发展方向。

AI for Science驱动科学研究范式变革

2024年科研人员使用AI的比例快速增加,近半数科研人员认为AI将对其工作领域产生积极影响。2025年多模态大模型将进一步融入科学研究,赋能多维数据的复杂结构挖掘,辅助科研问题的综合理解与全局分析,为生物医学、气象、材料发现、生命模拟、能源等基础与应用科学研究开辟新方向。

具身智能元年

2025年“具身智能”将继续从本体扩展到具身脑的叙事主线。国内近100家具身初创公司或将迎来洗牌,厂商数量开始收敛。端到端模型继续迭代,小脑大模型的尝试或有突破。在商业变现上,更多的工业场景下的具身智能应用将出现,部分人形机器人迎来量产。

统一的多模态大模型实现更高效AI

当前的语言大模型和拼接式的多模态大模型在模拟人类思维过程方面存在局限性。2025年,从训练之初就打通多模态数据,实现端到端输入和输出的原生多模态技术路线将给出多模态发展的新可能。基于此,训练阶段即对齐视觉、音频、3D等模态的数据,实现多模态的统一,构建原生多模态大模型成为多模态大模型进化的重要方向。

Scaling Law扩展:RL + LLMs

基于Scaling Law推动基础模型性能提升的训练模式“性价比”持续下降,后训练与特定场景的Scaling law不断被探索。强化学习作为发现后训练、推理阶段的Scaling Law的关键技术,将得到更多的应用和创新使用。

世界模型加速发布

世界模型更注重“因果”推理作用,能赋予AI更高级别的认知和更符合逻辑的推理与决策能力。这种能力不仅能推动AI在自动驾驶、机器人控制及智能制造等前沿领域的深度应用,更有望突破传统的任务边界,探索人机交互的新可能。

合成数据成为大模型迭代与应用落地的重要催化剂

高质量数据成为大模型进一步发展的阻碍。合成数据已经成为基础模型厂商补充数据的首选。合成数据可以降低人工治理和标注的成本,缓解对真实数据的依赖,不再涉及数据隐私问题;提升数据的多样性,有助于提高模型处理长文本和复杂问题的能力。

推理优化迭代加速

大模型硬件载体从云端向手机、PC等端侧硬件渗透,在这些资源受限的设备上,大模型的落地应用会面临较大的推理侧的开销限制。算法加速和硬件优化技术持续迭代,双轮驱动加速AI Native应用落地。

Agentic AI成为产品落地的重要模式

2025年更通用、更自主的智能体将重塑产品应用形态,进一步深入工作与生活场景,成为大模型产品落地的重要应用形态。

AI应用热度渐起,超级应用为竞争重点

生成式AI模型在图像、视频侧的处理能力得到大幅提升,叠加推理优化带来的降本,Agent/RAG框架、应用编排工具等技术的持续发展,为AI超级应用的落地打下基础。大模型应用从功能点升级,渗透到AI原生的应用构建及AI OS的生态重塑。

模型能力提升与风险预防并重

作为复杂系统,大模型的Scaling带来涌现,但复杂系统特有的涌现结果不可预测、循环反馈等特有属性也对传统工程的安全防护机制带来了挑战,需要探讨如何引入新的技术监管方法,在人工监管上平衡行业发展和风险管控。

另据研究机构IDC预测,到2025年全球AI支出将达2270亿美元,而到2030年,AI将为全球经济贡献19.9万亿美元,推动全球GDP增长3.5%。(钛媒体)

来源:放牛班的秘密花园

相关推荐