NVIDIA Blackwell GPU浅析:AI正在回归GeForce

B站影视 2025-01-16 19:07 2

摘要:CES 2025期间,NVIDIA在拉斯维加斯邀请了全球范围内的核心媒体参加时隔已久的NVIDIA Editor’s Day。这也是疫情之后,全球媒体再次相聚。能在忙碌的CES 2025展会期间,让大多数科技媒体空出宝贵的一天时间,仅针对GeForce RTX

CES 2025期间,NVIDIA在拉斯维加斯邀请了全球范围内的核心媒体参加时隔已久的NVIDIA Editor’s Day。这也是疫情之后,全球媒体再次相聚。能在忙碌的CES 2025展会期间,让大多数科技媒体空出宝贵的一天时间,仅针对GeForce RTX 50系列的硬件和技术展开讨论,足以见得其重要性。

这场盛会的主角,自然包括了NVIDIA Blackwell,GeForce RTX 50系列台式机GPU,乃至GeForce RTX 50系列Laptop GPU,以及围绕其所构建的一大堆技术,比如DLSS 4,Reflex 2,RTX Neural Shaders神经着色器。而这些新硬件和新技术也带来了很多问题,GeForce RTX 5090是如何做到最高画质4K 240FPS的,神经网络渲染究竟是什么,未来的游戏究竟会变成什么样子?

神经网络渲染:未来十年图形技术新基石

在CES 2025主题演讲开篇,黄仁勋就展示了一段名为Zorah的DEMO,整个DEMO由GeForce RTX 5090在后台通过DLSS 4进行实时运算,同时也昭示着神经网络渲染登上游戏实时计算的舞台,将仅由硬件堆叠的粗暴渲染方式送入淘汰进程。

神经网络渲染其实很好理解,就是将神经网络集成到渲染过程中,让性能、图像质量、游戏互动性上获得质的提升,从而获得更好的游戏沉浸感。

神经网络渲染最好的体现之一就是DLSS,通过低分辨率渲染帧输入给训练过的神经网络,然后以全分辨率的图像输出。重点是,DLSS不仅能做到生成完整的帧,还能够理解场景的组成,包括场景中的阴影、反射和遮挡,让生成的图像效果足以媲美原生 。

DLSS从2019年正式实装游戏至今,也已经发生了质的变化。最初的DLSS 1.0版本需要针对游戏进行专门的训练,在经过调整之后可以正式运行在Tensor Core中。从DLSS 3开始增加了光流加速器作为协助,使得GeForce RTX 40系列以后的GPU可以自然的在实际渲染帧之间插入生成帧,也就是大名鼎鼎的DLSS 3 帧生成技术。DLSS 3.5增加了光线重建功能,并开始引入AI模型取代降噪算法,并将训练量提升至DLSS 3的五倍。

DLSS 4则是在DLSS 3.5的基础上更进一步,第一次引入多帧生成的技术。在DLSS 3上,帧生成占据1/8的内容,到了DLSS 4,则硬件渲染实际上只占据1/16,也就是在DLSS 4游戏中,每16帧游戏画面中,实际上有15帧是由AI加速完成的。这意味着即使硬件性能变化不大的前提下,实际游戏帧率仍然可以有质的提升。再加上DLSS本身对场景中的阴影、反射和遮挡有了很好的理解,实际生成效果也远比纯靠硬件生成的效果好很多。

有意思的是,DLSS也仅仅是一个开始。在NVIDIA Blackwell上,工程师将神经网络集成到可编程着色器中,从而构成了GeForce RTX 50系列神经网络着色器(RTX Neural Shaders)。同时也可以看到,所有的Blackwell CUDA Core均支持FP32/INT32,不像Ada Lovelace CUDA Core在一个SM中,只有一半CUDA Core支持FP32/INT32,另一半仅支持FP32。

RTX Neural Shaders被认为是未来十年推动图形技术创新的基石,它可以将纹理压缩7倍,进而节省出大量的图形的显存。RTX Neural Shaders的应用范围很广泛,除了处理纹理压缩(Texture Compression)之外,也能兼顾到辐射缓存 (Radiance Caching),材质 (Materials)和辐射场 (Radiance Fields)的计算。

RTX Neural Shaders SDK允许开发者能够在RTX AI PC上训练游戏数据和着色器代码,并通过Tensor Core加速神经表示和模型权重,在训练过程中,神经网络训练的游戏数据还会与传统渲染的游戏数据进行对比,从而获得多次迭代进化。开发团队还可以使用着色语言Slang简化训练过程,将大型复杂的函数,拆分成更小、更容易处理的部分。利用RTX Neural Shaders还能创造出高质量的纹理,帮助游戏场景实现更先进的光照效果。

微软也进而表示,DirectX也将很快对这套技术提供支持,以确保进一步发挥Tensor Core的能力,让游戏开发团队能够在Windows平台上更好的使用神经网络着色器(Neural Shaders)。

因此可以看到RTX Neural Shaders可以专注于三个方向的应用,即:

RTX神经网络纹理压缩(RTX Neural Texture Compression)

RTX神经网络材质(RTX Neural Materials)

RTX神经网络辐射缓存(RTX Neural Radiance Cache,RTX NRC)

简单的展开,可以这么理解:

RTX神经网络纹理压缩(RTX Neural Texture Compression):利用AI在不到一分钟的时间内压缩成千上万的纹理,他们的神经网络表示可是实时存储、访问,并且可以直接加载到显 存中,无需进一步修改。神经压缩纹理在相同的视觉质量下,可以比传统块压缩纹理节省7倍的显 存。

RTX神经网络材质(RTX Neural Materials):利用AI压缩离线材质的复杂着色器代码,这些材质通常由多个层次构成,比如渲染陶瓷、丝绸的场景。神经网络材质处理速度相对传统方式提升了5倍,这让游戏级的帧率渲染,拥有电影级画质成为了可能。要知道,以往好莱坞一帧高质量画面通常需要数小时甚至更多才能完成。

RTX神经网络辐射缓存(Neural Radiance Cache,NRC):利用实时游戏数据训练的神经网络,可以更准确高效地估算游戏场景中的间接光照。NRC通过追踪1到2条光线,随后将其存储在辐射缓存中,并推断出无线数量的光线和反弹,进而更准确的表达出游戏场景的间接光照效果。这么处理,不仅让路径追踪的间接光照效果得到了改善,同时也减少了需要追踪的光线数量,性能也进一步得到提升。

值得一提,NRC现在已经可以在RTX全局光照SDK中使用,NVIDIA计划在未来几个月内通过RTX Remix推出一个全新版本的《Portal with RTX》作为RTX NRC的DEMO供业界参考。

RTX Neural Faces:让虚拟人更像真人

在现场,NVIDIA举了一个例子,工程师利用RTX Neural Shaders构架一套名为RTX Neural Faces(RTX神经网络面孔)方案,通过AI生成的方式提升游戏任务的面部质量。这套方案与传统的渲染不同,为RTX Neural Faces获取简单的光栅化面孔和3D姿势后,再利用生成式AI模型构建出更为自然的面孔,也进而释放了GPU的硬件性能。

渲染人类面孔其实是实时图形中一个非常具有挑战的任务,因为人类对人类太熟悉了,导致人类可以轻易差距到虚拟人类脸上的细微偏差,如果处理得不好,就会导致陷入恐怖谷效应,作为3D游戏的老玩家,这一大段长长的记忆一般都深有体会。

RTX Neural Faces提供了一种创新的方法,通过生成式AI来改善面部质量。与直接渲染不同,RTX Neural Face只需要简单的光栅化面孔和3D姿态数据作为基础,就可以实时通过生成式AI模型推断出自然的面孔展现。而在此之前,模型已经经过数千张离线数据的学习和训练,涵盖不同角度、光照、情感和遮挡条件。

这一训练流程可以使用真是的照片或者AI图像完成,并通过扩散模型生成不同的版本。训练好后的模型也会经过NVIDIA TensorRT优化,从而确保自然的效果。

不仅如此,RTX Neural Faces与用于头发和皮肤的RTX角色渲染(RTX Character Rendering)SDK相辅相成。因为游戏角色的头发、皮肤如果希望获得真实的展现,也同样具有很高的挑战性。但如果按照传统方式,即便使用最先进的头发技术,也需要每根发束30个三角形,整个发型400万个三角形完成,如果利用光线追踪的包围体层次加速结构(BVH,Bounding Volume Hierarchy)解决,代价非常高,速度也非常慢。

这里GeForce RTX 50系列使用了一套名为线性扫掠球体(Linear-Swept Spheres,LSS)的方式,LSS通过减少渲染发束的数量,通过球体代替三角形,能够更为精准的展现头发的形状,也使得在占用较少显存的前提下,针对头发的光线追踪成为可能。

针对皮肤也是如此,NVIDIA使用了一套名为次表面散射(Subsurface Scattering,SSS)的方式模拟了光线穿透半透明材料的效果,从而获得皮肤的柔和、自然感。这里现场工作人员利用了一个猎头蟹DEMO作为展示 。

AI驱动光照和RTX Mega Geometry

随着虚幻引擎5 Nanite几何体系统的推出,开发者可以构建数亿个三角形的开放世界,光线追踪场景的复杂度也是指数级上升,每一帧不同细节层次(LOD)构建层次包围盒(BVH)的成本也呈指数级增长,按照这么发展,实时帧率将变得不可能。

对于这个复杂环境下的光照效果挑战,NVIDIA的做法是提供了一套名为RTX Mega Geometry进行更高效的组织加速结构,让开发者能够生成最多100倍的光线追踪三角形,并借助NVIDIA Opacity Micro-Maps更好的编码复杂材质的透明度,进而确保复杂场景中逼近现实的真实光照。

复杂结合体通过RTX动态光照获得了准确的照明效果,并通过最新的ReSTIR路径追踪算法,将算力集中在主要的光线路径上,RTX全局光照则使用AI驱动,从而减少光线追踪反射所需的计算量。

现在RTX Mega Geometry已经可以智能的通过GPU上批量生成三角形集群,进而减少CPU负担,提升光线追踪场景中的性能和图像质量。NVIDIA也表示RTX Mega Geometry很快也会加入到NvRTX的虚幻引擎分支中,帮助虚幻引擎Nanite几何体系统更好的完成光线追踪项目。

DLSS 4:神经网络图形进化的新形态

NVIDIA DLSS由GeForce RTX Tensor Core所驱动,进阶到近期的版本之后已经扩展成为一套相当完整的解决方案,包括提升游戏帧率,提供更清晰和更高质量的图像,目前已经有超过700款RTX游戏和应用对DLSS提供了支持。

DLSS 4最大的变化之一就是带来了多帧生成技术(Multi Frame Generation),这是GeForce RTX 50系列GPU的专属功能,意味着未来的一段时间中,只有采用GeForce RTX 50系列的台式机和笔记本才能获得对应的功能。NVIDIA表示,在DLSS 4发布时,会有75款游戏和应用率先支持DLSS多帧生成技术(DLSS Multi Frame Generation)。

NVIDIA应用与深度学习研究院副总裁,Bryan Catanzaro

如前面所说,DLSS多帧生成技术,是在传统渲染的基础上,通过AI在每一帧的基础上多生成三帧的额外帧,并且与其他的DLSS技术套件协同工作。由于DLSS本身就允许游戏实际渲染以低分辨率进行,再以全分辨率高质量输出,因此实际获得的效果是传统渲染能力的8倍,从而让GeForce RTX 5090获得在开启光线追踪最高画质的前提下,以4K 240FPS的极高帧率运行游戏。

在现场,NVIDIA用采用了DLSS 4的《赛博朋克2077》作为参考,帧率比传统渲染提升了8倍以上,同时PC系统延迟减少了50%,画质也有了进一步提升。

DLSS 4同时也是2020年DLSS 2.0发布以来,最大的AI模型升级,在DLSS 3.5上所构建的DLSS光线重建技术(DLSS Ray Reconstruction),DLSS超分辨率(DLSS Super Resolution),以及DLAA(Deep Learning Anti-Aliasing)深度学习抗锯齿技术全部引入到实时计算的Transformers模型中,用来代替此前的卷积神经网络(Convolutional Neural Networks,CNN)。

Transformers在商用领域倍广泛采用,前沿的AI模型,比如ChatGPT、Flux和Gemini均是在Transformers架构下实现的。NVIDIA表示,DLSS Transformers的引入,可以获得更好的稳定性,更少的鬼影,更高质量的运动细节,图像质量也因此获得进一步提升。

让人高兴的是,DLSS Transformers并非GeForce RTX 50系列GPU独占,所有支持DLSS光线重建技术(DLSS Ray Reconstruction),DLSS超分辨率(DLSS Super Resolution),以及DLAA的游戏后续都会转换到DLSS Transformers架构下,意味着老款GeForce RTX GPU的用户,在不花钱的前提下也能获得更好的效果。

同时,由于新技术带来的显存需求降低,帧生成技术的表现也可以同时在GeForce RTX 50系列和GeForce RTX 40系列上获得提升。只不过多帧生成技术是最新的GeForce RTX 50系列独占。

致胜新法宝:DLSS多帧生成

DLSS 3的帧生成技术是通过AI模型,利用游戏中的数据,比如运动矢量、深度,以及通过GeForce RTX 40系列GPU中的光流加速器硬件生成的光流场来获得一个额外的帧。这样的帧生成方式成本是非常高昂的,因为每一个帧生成,都需要光流加速器、AI模型共同协作,意味着GPU要花费额外的开销,进而也影响输入帧率。

Transformer模型的好处是,新帧生成通过DLSS Transformer AI模型速度提升了40%,显存使用减少了30%,并且每个渲染帧只需要运行一次,就可以生成多个帧。比如在《战锤40K:暗潮》中,利用新模型可以获得10%的帧率提升,在4K最高画质的环境下使用DLSS帧生成,能够进一步减少400MB的显存占用。

此外,DLSS 4利用DLSS Transformer AI模型代替了原来的硬件光流加速器,加速了光流场的生成,并通过两个AI模型协作,显著降低了额外帧生成的计算成本。

即便如此,GPU在渲染每一个游戏帧的时候,还是需要执行5个以上的AI模型,比如DLSS光线重建技术,DLSS超分辨率这些AI模型都必须在几毫秒之内完成,否则DLSS多帧生成就会成为性能瓶颈。

解决这个问题的首要方案就是提升硬件性能。GeForce RTX 50系列GPU的第五代Tensor Core支持FP4精度,在AI性能上能有高达2.5倍提升。与此同时,为了规避多帧生成导致CPU与GPU之间节奏的不同步,所导致的节奏波动,Blackwell中采用了硬件翻转计量方式,将帧节奏的控制逻辑转移到显示引擎中,确保Blackwell GPU可以更精确的管理显示时序,同时像素处理能力也获得增强,以支持更高分辨率和刷新率。

从NVIDIA展示的最终结果来看,DLSS 4带来的多帧生成、光线重建、超级分辨率,可以让其帧率相对传统渲染方式提升8倍,从帧生成到多帧生成可以提升1.7倍。

DLSS Transformer模型:突破CNN极限

DLSS Transformer之前,DLSS使用的是卷积神经网络(Convolutional Neural Networks,CNN)局部分析前后帧内容在区域内的连续变换,从而推导生成新的像素。从2019年至今的6年中,NVIDIA发现DLSS CNN架构已经到达极限,DLSS Transformer正是时候。

DLSS Transformer模型主要利用的是视觉Transformer,能够同时评估整个帧中每个独立像素相对重要性,并进行跨帧判断。由于DLSS Transformer模型参数比CNN多一倍,新的模型可以更好的理解场景,进而确保生成像素的稳定性,并获得更多运动细节,以及平滑的场景边缘。

特别是在高强度的光线追踪画面中,依靠DLSS Transformer构建的光线追踪重建可以更好的提升图像质量。在现场,NVIDIA通过《心灵杀手2》进行了展示,可以看到使用DLSS Transformer后,铁丝网表现得更稳定,同时风扇叶片鬼影减少,电线上的闪烁也被消除。

另外一个展示是《地平线:西之绝境》中,DLSS Transformer可以给女主角带来很好的纹理效果。

由于DLSS Transformer本身以及多帧生成技术与DLSS有很好的兼容性,因此GeForce RTX 50系列上市时候,就能获得至少75款游戏和应用的支持,与此同时,所有GeForce RTX用户也可以在超过50款游戏中体验到DLSS Transformer带来的DLSS光线重建、DLSS超级分辨率和DLAA的提升。

其中,与GeForce RTX 50系列GPU首发支持DLSS 4多帧生成技术的游戏包括:

《心灵杀手2》

《赛博朋克2077》

《夺宝奇兵:古老之圈》

《星球大战 绝地:幸存者》

《黑神话:悟空》

预告支持DLSS 4多帧生成技术的游戏包括:

《永劫无间》

《漫威争锋》

《微软飞行模拟2024》

即将推出,且将会原生支持的DLSS 4多帧生成技术的游戏包括:

《黑色国度》

《毁灭战士:黑色时代》

《沙丘:觉醒》

NVIDIA Reflex 2:用Frame Warp实现乾坤大挪移

与DLSS 4对应的是NVIDIA Reflex 2,如前面所说,为了应付多帧生成带来的延迟,以及CPU与GPU之间的节奏问题,Blackwell中采用了硬件翻转计量,将帧节奏的控制逻辑转移到显示引擎中,确保Blackwell GPU可以更精确的管理显示时序。

不仅如此,NVIDIA Reflex 2的低延迟模式还和全新的Frame Warp结合,在渲染的游戏帧发送到显示器之前,就将鼠标输入的关键帧提交给最终判定,从而提升关键操作的成功率,进一步降低系统延迟。

在了解Frame Warp和NVIDIA Reflex 2如何实现之前,我们先简短的回顾游戏中操控指令的实现方式。在游戏中,玩家每一个动作都需要通过复杂的渲染管道处理之后,最终呈现在屏幕上。并且每一个步骤都会带来延迟。能做出关键操作的键盘和鼠标输入也需要先经过CPU判断,然后放在渲染队列中,最终输出到显示器上。整个过程执行通常需要数十毫秒,如果停顿和等待复杂的渲染队列,延迟还会进一步增加。因此最初、最淳朴的降低系统延迟的方式就是提升GPU性能,提升游戏帧率。

NVIDIA Reflex的做法是在游戏引擎SDK中集成对鼠标到显示器的延迟管道优化,让Reflex可以更好的控制CPU,防止CPU超前运行,让关键帧以最短的时间到达屏幕,获得更低的系统响应。

NVIDIA Reflex 2使用了不同的方式降低延迟,并且源自于一项有意思的发现。大约在2021年,NVIDIA的电子竞技研究团队发现,当游戏帧在渲染后根据更近期的鼠标输入进行更新时,玩家完成瞄准任务的速度更快,并且可以额外的减少80毫秒延迟,以及提升40%左右的关键操作准确率。

举个例子。当玩家将鼠标移向右侧的时候,通常需要等待一段时间系统才会接受到对应的操作指令,并针对新的视角进行渲染。那么这时候一个大胆的方法来了,如果这时候系统不渲染新画面,而是对现在的游戏帧向右移动或者扭曲,是不是可以更快呢?

NVIDIA Reflex 2 Frame Warp大致就是这个思路。当GPU正在渲染一个帧的时候,CPU会基于最新的鼠标、键盘输入的关键指令获得下一帧的相对位置,Frame Warp直接从CPU获得对应的新视角,并将GPU渲染的帧直接扭曲到对应的位置。这个处理过程在渲染管道中尽可能晚进行,从而确保鼠标输入指令能够更快的在屏幕上获得反应。

Frame Warp本质就是别急着渲染下一帧,而是节省资源对当前帧进行变化,这意味着实际游戏图像中会产生一些未被渲染的空白,如果这些空白太多,会直接影响到游戏的整体感受。这里NVIDIA使用了一套延迟优化的预测渲染算法,利用当前帧的相机、颜色、深度数据来弥补这些空白处,从而在体感和操控上获得一致。

从最终结果来看,NVIDIA Reflex 2可以做到让PC系统延迟降低75%,在《无畏契约》中可以做到3毫秒的延迟,这个成绩是目前全球范围内所有第一人称射击游戏中最低的。

NVIDIA ACE和数字助手

在CES 2025现场,NVIDIA ACE和数字助手也是被重点宣传的方向。虽然游戏AI在游戏世界中已经用了几十年,但实际上游戏中的NPC都是按照固定的程序套路化和玩家进行交互,NVIDIA ACE出现打破了NPC只有固定说话方式的可能性,提供了一种全新的自主交互方式。

NVIDIA ACE在2023年首次推出,是一套将生成式AI对话应用于游戏角色的技术。在生成式AI帮助下,NVIDIA ACE塑造的游戏人物会更有自主互动感,配合本地小语言模型,还可以即时响应玩家文字、音频甚至视觉互动。

这套技术现在应用到了更广的范围,CES 2025现场提供了《绝地求生》、《永劫无间手游》PC 版的NVIDIA ACE AI队友试玩,另外现场还展示《MIR5》则是由AI驱动的BOSS,根据对手的动作做出类似人类的判断。

有意思的是,《暗影火炬城》的制作团队也使用NVIDIA ACE打造了一个《动物朋克》的DEMO,通过语音或者文字与NPC进行交互。

Project G-Assist数字助手则是围绕GeForce RTX PC打造的系统级助手,你可以将它看成NVIDIA app的AI版本,通过语音、文字交互就能实时判断当前PC的性能、优化设置、效率、游戏设置等等。

Project G-Assist数字助手本质上也是由NVIDIA ACE构建,并由GeForce RTX GPU进行本地驱动,通过专门调优的本地小语言模型SLM,GeForce RTX PC可以高效的理解自然语言指令,并帮助玩家进行对应的操作。在AI PC概念盛行的当下,NVIDIA ACE加持无疑可以比一些小打小闹的AI应用助手要靠谱得多。

NVIDIA也表示,Project G-Assist数字助手在未来会直接集成到NVIDIA app中,可以通过快捷键被直接调用。

好戏还在后头

有意思的是,NVIDIA Editors Day现场内容并不局限于新硬件和新技术,从Blackwell架构,到生成式AI创作,以及围绕RTX AI PC构建的生态,都在NVIDIA Editors Day上有所展示。

就在这个月,GeForce RTX 5090、GeForce RTX 5090D评测内容将会解禁,我们还会围绕评测对Blackwell架构更稳深入的解析,比如在生成式AI创作中,GeForce RTX 5090如何利用FP4的优势,DLSS 4游戏和传统游戏的实际表现。

即便如此,我们已经可以窥见到Blackwell和GeForce RTX 50系列GPU所构建出的庞大生态,在AI、游戏、内容创作等消费端领域全面开花,展现出旗舰级产品应有的姿态,也让整个市场更加期待RTX 50系GPU的上市。

正如NVIDIA创始人兼首席执行官黄仁勋在Keynote所说:”今天的 AI,其基础是 GeForce 建立的,是 GeForce 让 AI 走进千家万户,现在,AI 也在回归 GeForce。”

来源:爱极物

相关推荐