传统渲染时代谢幕,RTX 50正式开启AI渲染时代

B站影视 2025-01-17 14:08 2

摘要:在CES 2025的发布会上,NVIDIA正式推出了采用Blackwell架构的新一代RTX 50系列GPU,而在1月15日,NVIDIA又举办了一次技术沟通会,对Blackwell架构以及诸多AI渲染技术进行了详细的介绍,并在现场提供了包括RTX神经网络渲染

在CES 2025的发布会上,NVIDIA正式推出了采用Blackwell架构的新一代RTX 50系列GPU,而在1月15日,NVIDIA又举办了一次技术沟通会,对Blackwell架构以及诸多AI渲染技术进行了详细的介绍,并在现场提供了包括RTX神经网络渲染、Mega Geometry、DLSS 4、3D引导生成式AI和《永劫无间手游》PC版AI队友、《动物朋克》AI NPC的互动DEMO体验。我们有幸参加了这次技术沟通会,在这里也和大家分享一下。

Blackwell架构解析:为AI渲染而生

RTX Blackwell架构设计的目标:为新的神经网络渲染进行优化;减少显存占用;为服务功能提供新的质量;高能效。可以说,RTX Blackwell架构的诞生,代表GPU的发展开始摆脱摩尔定律的限制,同时也宣告光栅化渲染时代进化到AI渲染时代。

NVIDIA GeForce Blackwell神经网络渲染架构拥有第五代Tensor Core和第四代RT Core,RTX算力高达360 TFLOPS,为全新的Mega Geometry提供强大的性能支持;搭载AI管理处理器,在AI计算与图形渲染之间智能分配算力,实现最佳平衡;全新设计的Blackwell SM单元,为新的神经网络着色器提供高达125 TFLOPS的强大算力;NVIDIA Blackwell架构下的Max-Q技术,带来两倍的高能效;首次搭载GDDR7显存,提供高达30Gbps传输速率。

Blackwell的SM单元经过了全新的设计,整个架构完全为新的神经网络渲染而打造。从图中可以看到,和上代针对常规渲染设计的Ada SM相比,Blackwell SM将支持INT32的着色器单元数量增加了一倍(INT32/FP32着色器单元总数不变), 同时将着色器执行排序的效率提升到上代的两倍(对常规渲染和神经网络渲染的代码进行排序)。

Blackwell是第一款搭载GDDR7显存的GPU,相对GDDR6显存来讲,GDDR7提供了两倍的数据传输速率,同时由于GDDR7使用了PAM3的模式,拥有比GDDR6X PAM4模式更低的工作电压,所以不但速率更高,功耗也更低,相对GDDR6更是提升了一倍的能效。

Blackwell架构的一项重大技术升级就是支持Mega Geometry,可将场景中的光线追踪三角形数量至多增加 100 倍,从而可以在游戏或者3D应用中提供超高的几何细节,打造极为逼真的模型。而实现Mega Geometry的硬件基础当然就是Blackwell搭载的第四代RT Core,它相对上代Ada架构的第三代RT Core增加了三角形集群交汇引擎、三角形集群解压缩引擎与线性图形扫描单元(专用于加速毛发渲染)

从图中可以看到,Blackwell的第四代RT Core相比第一代RT Core提升了7倍的光线三角形交汇率,相对上代RT Core也有一倍的提升。同时,和上代Ada架构相比,Blackwell架构由于支持几何压缩,显存占用率也下降了25%之多。

Blackwell另一大亮点就是其搭载的第五代Tensor Core支持FP4精度的计算,如果和Pascal架构相比,它的算力提升了31倍,相对上代Ada的Tensor Core(FP8),也提升了一倍。为什么要选择FP4模式?按照NVIDIA官方说法,FP4模式在可以满足渲染精度的同时下能够提供更快的渲染速度,综合来看是当下最符合需求的平衡点。

同时,Blackwell架构还引入了全新的AMP(AI Management Processor),这是一个完全可编程的硬件处理器,它可以精确控制和平衡帧生成与AI计算的所有需求。因此,在混合了LLM大语言模型、DLSS、帧生成等功能的游戏中,AMP优先保证基于LLM的数字人AI队友能够第一时间响应你的命令,同时也能确保帧渲染与刷新率接近或同步,不出现卡顿的情况。

能效方面,Blackwell也带来了新一代的Max-Q技术,可以在平台总功率限制下尽可能提供更高的性能。同时对于移动平台来讲也就意味着更长的续航时间。

首先值得关注的就是Blackwell采用的先进电源门控技术。其中时钟门控可以允许快速关闭整个时钟树;电源门控可以大大降低进入与退出某个电源模式的延迟,从而大大降低待机功率;新的电压轨门控则可对芯片区域实现独立的电压控制,同时针对工作负载进行优化,在很短的时间内就可以关闭芯片内闲置的单元。

NVIDIA举了一个运行小语言模型查询的案例来对比Blackwell与Ada架构在功率控制方面的差异。从图中可以看到,由于Blackwell拥有更强的AI性能,它比Ada更快地完成了活动周期,从而提前进入了更低的功耗状态,同时它进入低功耗状态的延迟也更低(比Ada快10倍)从而大幅节约了系统的功耗,总的来看,整个过程最高可以节约50%的功率。

Blackwell在时钟架构上的改进幅度非常大,和上代相比,它的时钟频率调整响应速度甚至快了1000倍,在动态负载状态下,自然会带来更高的能效表现。

显示与视频部分,Blackwell也带来了一系列的升级,输出部分,它支持DP2.1接口,支持UHB R20,拥有20Gbps的带宽。而在视频编解码部分,它的编码器从Ada的第八代升级到了第九代,解码器也从Ada的第五代升级到了第六代。因此,Blackwell现在支持AV1 UHQ、双倍的H.264解码,MV-HEVC,同时也支持4 2 2格式的硬件编解码了,对于视频剪辑师用户来讲非常实用。

综合来看,Blackwell架构整体设计思路就是从传统渲染到AI渲染的进化,无论是新一代RT Core与Tensor Core,还是全新打造的SM单元和首次引入的AMP,都是为AI渲染而生,而正是因为这些变革,才为DLSS 4、神经网络渲染、Mega Geometry等等新特性提供了硬件基础,从而打破了摩尔定律的桎梏,让GPU的进化走入了一个新的时代、彻底拥抱AI的时代。

RTX神经网络渲染:打破传统硬件限制的关键

自2001年GeForce 3首次引入可编程着色器,NVIDIA始终在引领GPU技术的发展,到现在Blackwell架构则首次将小型神经网络渲染引入传统的可编程着色器,从而打造出神经网络着色器的概念。神经网络着色器可以实现很多功能,包括神经网络材质、神经网络纹理、神经网络辐射缓存、神经网络辐射场等等。

NVIDIA和微软合作创造了一个叫做Cooperative Vectors的新API,这个API就可以让游戏开发者在游戏引擎中使用到神经网络着色器的技术。

RTX神经网络纹理压缩在使用AI的情况下不到一分钟的时间内就可以压缩数千个纹理,同时它还可以节约非常多的显存,在视觉效果相同的情况下,大约只需要传统纹理压缩方式1/7的显存。同时,RTX神经网络材质部分,也使用AI来压缩复杂的着色器代码,而这些代码通常都采用了离线的模式,并可以完成多层材质的处理,处理速度更是提升了五倍,能在实现电影级画质的同时提供游戏需要的流畅帧率。

从图中可以看到,使用神经网络材质占用16MB显存,而使用传统材质要占用47MB的显存,同时视觉效果的逼真程度要高出很多,特别是宝石的光泽、丝绸每一根丝线的光泽变化,已经远超普通渲染的水平。特别值得一提的是,在神经网络渲染模式下,物体表面的材质其实每次都会有细微的差别,因为它真的是由AI实时计算生成的——就像Stable Diffusion文生图那样。

RTX神经网络辐射缓存方面,用于路径追踪间接光照和性能的神经网络着色器支持实时自我训练网络,通过每像素一次弹射可推算出更多的弹射,大幅节约资源,提升效率。

通过RTX Neural Faces,可以实时生成更加生动的AI面容。整个流程是先通过游戏引擎的光栅化引擎渲染出脸部和3D姿势,再通过AI模型来推理,然后对训练之后的脸部模型通过Tensor RT来做优化,最终输出更加接近真实的角色脸部。

我们知道,在游戏中用传统的方式来精准渲染发束会用到非常多的三角形,一个角色的头发甚至要用到六百万个三角形。而Blackwell通过线性扫描球体这个新加入的渲染单元,则可以大幅降低发束对三角形数量的需求,相对传统渲染方式来讲,仅需1/3的数据开销,因此可以提供更高的帧率。

3D游戏中使用的几何体数量在不断攀升,上世纪90年代游戏中的几何体数量在1K到10K,而到了2020年之后,游戏中的几何体数量已经增长到一千万到五千万。更多的几何体也就意味着游戏中的建模更加精细、更加真实,因此从提升视觉效果来讲肯定是多多益善。但是,更多的几何体也就意味着对GPU性能要求更高,因此,Blackwell引入了Mega Geometry,在官方的Zorah演示DEMO中,支持三角形的数量甚至达到了五亿之多。

传统的几何体系统中每一个场景LOD的BVH(包裹体变异)都需要去更新,因此资源开销会非常大,而适用于数百万三角形的集群系统(Cluster)引入,让构建这个系统的成本大幅降低。Mega Geometry则可以在多帧上来压缩和缓存这些集群,从而加快场景更新LOD的BVH的速度,提供对数百万几何体数量高精度模型实现路径追踪的能力。

接下来要谈的AI渲染技术就是大家最关心的DLSS了。DLSS已经诞生6年,并在通过训练不断迭代和进化。到目前为止,支持DLSS的游戏和应用数量已经高达540+,其中2024年前20的游戏大作中就有15个支持DLSS。目前已经有超过80%的RTX玩家会在游戏中开启DLSS,而DLSS游戏的总游玩时间已经超过三十亿小时。实际上,如果要在4K极限画质下实现250+fps和35ms帧延迟的游戏体验,可能需要10块传统GPU,但换成支持AI的GPU,其实只需要一块就够了,这就是Blackwell诞生的目的之一。

新一代的DLSS 4使用了Transformer模型,相对之前的CNN卷积神经网络模型来讲,提供了两倍的参数、四倍的计算以及更加出色的画质。

从官方提供的对比视频来看,使用Transformer模型的光线重建画面质量明显优于使用CNN模型,大家可以注意《心灵杀手2》场景中铁丝网的细节,Transformer模型这边明显纹理更清晰,完全看不到边缘闪烁的锯齿。

用Transformer模型来做超分辨率效果也会好很多,它可以提供更清晰的纹理细节、更少的鬼影,目前已经有Beta版可供大家体验。

RTX 50独享的DLSS 4大招当然就是全新的多帧生成技术了。我们知道,之前DLSS3的帧生成技术是AI模型使用游戏本身的数据(运动矢量和深度),通过光流场加速器来生成新的帧,但每帧只能生成一帧,毕竟通过这种方式要生成多帧会导致极高的资源开销。而Blackwell架构则针对DLSS 4的多帧生成设计,包括增强的Tensor Core、增强的Flip Metering和AMP。在此基础上,DLSS 4的多帧生成采用的模型速度提升了40%,使用的显存减少了30%,而且只需要渲染一次就可以生成全部的三帧,生成的帧会均匀排列,从而提供流畅的体验。

从图中可以看到,DLSS 4和多帧生成技术加持的情况下实际渲染的16个像素中,就有15个是AI生成的。综合计算下来,可以让帧率最高提升八倍。

官方展示视频中《赛博朋克2077》在开启DLSS 4和多帧生成(使用Transformer模型)之后,帧率从27fps暴增至248fps,相对上代的提升幅度也有1.7倍。而且,DLSS 4不但帧率提升,画面精度也大幅升级,大家可以看到外卖盒上的纹理细节,DLSS 4明显更加丰富。

首发支持DLSS 4的游戏已经有75款,那么对于暂时不支持DLSS 4的游戏来讲,大家也可以在NVIDIA app中使用DLSS Override功能来提前享受DLSS 4。例如《漫威争锋》就可以通过DLSS Override来提前享受多帧生成带来的巨幅帧率提升。

可能玩家会担心多帧生成会带来更多的延迟,不过NVIDIA的Reflex2显然会让大家打消这个顾虑。NVIDIA在Reflex 2中部署了一个以前应用在VR中的技术(Frame Warp),在每一帧渲染结束之后,Reflex 2都会移动画面对齐最新的鼠标位置。不过,Frame Warp会在画面中产生空白的区域,为此NVIDIA开发了一项Inpaint预测修补技术,这个技术使用前一帧的颜色与深度数据对空白区域进行修复,从而创造出与原生渲染几乎没差别的画面。

综合来看,通过AI技术加持的神经网络渲染,Blackwell实现了空前的性能提升和更加真实的电影级画质,而这些如果要依靠传统光栅渲染来实现的话几乎是不可能完成的任务。由此可见,AI渲染时代已经正式来临,而Blackwell的出现,将彻底改变游戏开发的流程和游戏玩家的体验。

现场DEMO:超乎想像的未来游戏体验

现场布置了多台配备RTX 5090 D和RTX 5080 GPU的电脑,并部署了包括RTX神经网络渲染、Mega Geometry、DLSS 4、3D引导生成式AI和《永劫无间手游》PC版AI队友、《动物朋克》AI NPC的互动DEMO体验,一起来看看吧。

RTX神经网络渲染:Zorah

可以看到,在RTX 50系列GPU通过AI计算的神经网络材质加持下,Zorah演示DEMO中的艺术品与丝绸的质感变得更加接近真实的物体。宝石不但表现出了通透的感觉,同时带有精准的光追效果,丝绸表面并非像传统渲染那样只有简单的蓝色反光,而是针对每一根丝线都有独立的渲染,并根据角度不同呈现出了正确的绿色反光,而且在转动视角的时候可以看到每一根丝线都有独立的反光变化。同时,我们还观察到物体表面材质每次切换渲染模式后都会有小幅度的变化,可见其确实是由AI实时生成的。

RTX神经网络渲染:Dragon

Dragon这个DEMO主要展示了Mega Geometry技术,建模中采用了巨量的三角形,并加入了复杂的光追效果,让整个龙的形体细节非常丰富。特别值得一提的是,龙身体表面的材质也是通过神经网络渲染AI生成,让AI模型来自动判断龙的鳞片是什么样子。可以说,要是没有Blackwell的Mega Geometry技术,仅靠传统渲染是无法支撑如此多数量三角形的模型快速构建的。

DLSS 4 Override:《黑神话:悟空》

在暂时没有内置DLSS 4支持的游戏中,我们可以使用NVIDIA APP开启DLSS Override模式来提前享受DLSS 4带来的高帧率和高画质。在现场NVIDIA使用的是《黑神话:悟空》,可以看到在4K影视级画质+光追特效全满的情况下,即便是强如RTX 50系列GPU也只能跑到21fps,但开启DLSS 4加上多帧生成之后,帧率就暴增到了188fps,大约提升了8倍,而且即便是近距离比较画质,也基本上看不出来开启DLSS 4和原生有什么差别,可谓高画质与高帧率兼得。此外,我们也可以看到开启DLSS 4后GPU的游戏功耗比原生状态低了大约14%左右。

Converse With AI-Powered NPCs:《动物朋克》

《动物朋克》是一款还在开发中的动作游戏,它已经使用了NVIDIA ACE技术,而且用的是本地AI模型,无需联网即可在游戏中提供AI NPC功能。在游戏中,我们可以和叫Buck的猴子工程师通过语音或者打字互动,让它帮你改变飞船的涂装和LOGO。玩家可以和Buck全程闲聊,这里调用的也是本地LLM,而改变飞船涂装则使用了文生图的本地AI模型。实际体验中,由于调用的是本地模型,响应速度可以说是完全无缝的,体验非常不错。

Converse With AI-Powered NPCs:《永劫无间手游》PC版

《永劫无间手游》PC版提供的AI队友就更有趣了,你不但可以和它闲聊,也能通过语音和打字来指挥它战斗、部署战斗任务等等。现场工程师表示《永劫无间手游》PC版调用的是网易自己开发的AI模型。实际体验中,AI队友确实能够非常快地响应玩家的语音指挥,并根据实际情况,将战况和自身状态通过语音和文字反应给玩家,就像玩家在和真人组队游玩一样。此外,不同的AI队友还拥有不同的性格,带给玩家的互动体验也完全不同。可以说,AI队友应该算是最令人期待的游戏功能之一了。NVIDIA在现场还展示了《绝地求生》AI队友的演示视频,未来加入AI队友恐怕要成为电竞网游的必备功能了。

3D Guided Generative AI:Blueprint

对于不是特别精通AIGC和3D建模的用户来讲,Blueprint可以说是一个非常容易上手的AI生图工具。用户只需要下载现成的模型并拖拽到Blender的工作区域中,然后调整到需要的视角,并根据需要输入提示词点击渲染,仅需3秒多就能将模型图渲染成需要的图片(1280×720)。同样的3D模型组合,使用不同的提示词就能生成不同风格的图片。由于Blackwell使用的是FP4精度渲染,因此不但速度快,对显存占用也更低,所以非常适合主流GPU使用。

写在最后:Blackwell开启了AI渲染新时代

简单总结一下。GPU发展到今天,摩尔定律也已经走到了尽头,如果想要突破制程工艺与芯片规模的限制实现GPU性能的巨幅提升,AI渲染确实是一个高效而且可行的思路。NVIDIA从推出第一代Tensor Core开始,就已经注定游戏GPU必然要归属在AI计算的大框架之下,由AI驱动的渲染模式,才能让GPU真正突破硬件的物理限制,从Blackwell加入的神经网络着色器、Mega Geometry、DLSS 4等等技术可以看到,AI确实做到了这一点,它确实称得上是开启AI渲染时代的里程碑。

其实本次技术沟通会的内容远不止这些,限于篇幅我们决定把它们放在之后的测试中再详细介绍。因此,大家可千万不要错过我们RTX 5090 D与RTX 5080的首发测评!

来源:电脑报

相关推荐