除了神经网络渲染、DLSS 4之外还有什么?再探再报NVIDIA Blackwell GPU

B站影视 2025-01-20 12:05 3

摘要:在2025年CES期间,NVIDIA在其Editor’s Day活动中公布了基于Blackwell架构的GPU以及NVIDIA RTX AI技术的性能和功能展示。随后,NVIDIA在深圳举行了进一步的沟通分享会,详细解读了Blackwell架构GPU及其部分功

在2025年CES期间,NVIDIA在其Editor’s Day活动中公布了基于Blackwell架构的GPU以及NVIDIA RTX AI技术的性能和功能展示。随后,NVIDIA在深圳举行了进一步的沟通分享会,详细解读了Blackwell架构GPU及其部分功能,那么,还有哪些方面是值得我们深入探究的呢?

NVIDIA GeForce RTX 50系GPU,基于NVIDIA Blackwell设计,同时其构建的一大堆黑科技。

完整的Blackwell核心搭载着第五代Tensor Core、第四代RT Core、GDDR7显存,360 RT TFLOPS,这一性能标准非常夸张。同时,它还支持FP4、RTX Mega Geometry等功能,且能效方面颇为出众。

Blackwell架构下的SM单元采纳了神经网络着色器(Neural Shaders),其致力于将微型人工智能网络嵌入至可编程着色器之中,以期达到电影级别的材质与光照效果。通过神经网络渲染对图形渲染流程进行优化,神经网络着色器实现了在性能、图像品质以及交互性方面的显著提升。

Shader Execution Reordering(简称SER),它可以对GPU的工作进行重新排序以确保SM以更少的发送代码来运行。在上图的例子中,神经网络着色器正在生成混合了传统着色器的代码和神经网络渲染的代码,SER则能够重新组合这些不同的渲染工作流,大幅提高Tensor Core和Shader Core的效率。

基于Blackwell架构的GPU是第一款采用GDDR7显存的产品,其能够提供2倍于GDDR6的速率,且功耗仅有GDDR6的一半,这是因为GDDR6以及GDDR6X使用Pam4信号调制方式,有着四个电压级别;而GDDR7使用Pam3的信号技术,它仅有3个电压级别——后者相比前者拥有更大的电压眼,允许在更低电压的情况下实现更高的数据传输速率,达到30Gbps,同时它也拥有更高的能效比。

在神经网络渲染技术之外,实现逼真效果的过程对几何细节的精细度提出了更高要求。Blackwell架构所搭载的第四代RT Core进行了显著的优化,引入了RTX Mega Geometry技术。该技术显著缩短了加速结构构建的时间,降幅可达10至100倍,从而大幅提升了每个场景中几何体的数量。此次升级的核心包括三角形集群交汇引擎(Triangle Cluster Intersection Engine)、三角形集群解压缩引擎(Triangle Cluster Decompression Engine)以及线性扫描球体(Linear Swept Spheres),关于这些技术的进一步细节,我们将在后面的内容进行解析。

对比Ada Lovelace架构,引入RTX Mega Geometry的Blackwell架构在三角形交汇的速度提升了两倍,并且Blackwell上的几何压缩也大大减少了加速结构所占用的空间和带宽需求。

根据NVIDIA提供的爆裂拆解图,我们可以看到NVIDIA GeForce RTX 50系的PCB位于显卡中间,采用短板设计。同时,散热管将PCB产生的热量分摊至两侧衔接的散热风扇,从而拥有更优异的散热效果。

NVIDIA GeForce RTX 30系、RTX 40系、RTX 50系各自的部分特性对比,可以看到RTX 50系的升级可以说是全方位的,包括着色器(支持神经网络渲染)、RT Core(支持RTX Mega Geometry)、Tensor Core(支持FP4)、DLSS(支持DLSS 4)、编解码器(迭代升级且数量增多)、显存(采用GDDR7)等等。

目前,NVIDIA GeForce RTX 50系已有四款产品公布了价格,RTX 5090 D以及RTX 5080于1月30日正式上架,RTX 5070 Ti与RTX 5070则于2月上架。另外,考虑到NVIDIA后续还会发布SUPER以及Ti SUPER等相关产品,所以RTX 5090 D与RTX 5080的价格之间有非常大的空间。

除了桌面端,NVIDIA GeForce RTX 50系同样会用于笔记本电脑,NVIDIA表示RTX 50系会拥有远高于RTX 40系的能耗比,哪怕是RTX 5070 笔记本电脑也会拥有超过RTX 4090 笔记本电脑的性能,这使得它能够拥有更出众的生产力以及AIGC表现。同时,也能进一步帮助笔记本电脑增加续航能力、缩减尺寸,从而令OEM厂商打造兼具便携与高性能的笔记本电脑产品。

基于NVIDIA GeForce RTX 50 笔记本电脑GPU的笔记本电脑大致参数表现以及相关价格,可以看到即便是RTX 5070 笔记本电脑也拥有798 AI TOPS以及8GB显存。

RTX神经网络材质技术(RTX Neural Materials)通过人工智能技术对离线材质的复杂着色器代码进行压缩处理,这些材质通常由多个层次构成,例如用于渲染陶瓷、丝绸等场景的材质。神经网络材质的处理速度相较于传统方法提升了五倍,这使得游戏级别的帧率渲染达到电影级别的画质成为现实。

RTX神经网络辐射缓存(Neural Radiance Cache,NRC)是一种利用实时游戏数据进行训练的神经网络技术,它能够以更高的准确性和效率估算游戏场景中的间接光照。NRC通过追踪有限的1至2条光线,并将这些信息存储于辐射缓存内,进而推断出无数光线的路径及其反弹效果,从而更精确地再现游戏场景中的间接光照。这种处理方式不仅提升了路径追踪技术在间接光照方面的表现,还减少了必须追踪的光线数量,进而增强了整体性能。值得注意的是,NRC技术目前已被集成于RTX全局光照SDK中。

此外,NVIDIA展示了其工程师如何利用RTX 神经网络着色器架构开发了一套名为RTX Neural Faces的解决方案,该方案借助人工智能技术显著提升了游戏中角色面部的真实感。与传统渲染技术有所区别,RTX Neural Faces解决方案在获取基础的光栅化面部图像和3D姿势数据之后,利用生成式人工智能模型创造出更为自然的面部表情,并有效增强了GPU的性能。在实时图形处理中,渲染人类面部是一项极具挑战性的任务,因为人类对同类面部特征的识别极为敏感,任何微小的偏差都可能被察觉,处理不当则可能导致所谓的“恐怖谷效应”。RTX Neural Faces提供了一种创新的方法,通过生成式AI来优化面部质量。与直接渲染不同,RTX Neural Face仅需简单的光栅化面孔和3D姿态数据作为基础,即可实时通过生成式AI模型推断出自然的面孔展现。在此之前,该模型已经通过数千张离线数据的学习和训练,涵盖了不同角度、光照、情感和遮挡条件。

此外,RTX Neural Faces与RTX角色渲染(RTX Character Rendering)SDK在功能上相得益彰,后者专门用于提升游戏角色的头发和皮肤的真实感。实现游戏角色头发和皮肤的逼真效果,无疑是一项极具挑战的任务。然而,即便采用当前最先进的技术,传统方法仍需为每根发丝分配30个三角形,整个发型则需要多达400万个三角形来构建。这种做法不仅成本高昂,而且渲染速度缓慢。针对这一问题,GeForce RTX 50系列引入了一种名为线性扫描球体(Linear-Swept Spheres,LSS)的技术。LSS技术通过减少渲染发丝的数量,并以球体替代三角形,能够更精确地呈现头发的形态。这一创新使得在占用较少显存的情况下,对头发进行光线追踪成为现实。

值得注意的是,NVIDIA推出了一套名为RTX Mega Geometry的高效组织加速结构,使得开发者能够生成高达百倍的光线追踪三角形数量。此外,借助NVIDIA Opacity Micro-Maps技术,开发者能够更精确地编码复杂材质的透明度,确保在复杂场景中实现接近现实的光照效果。通过RTX动态光照技术,结合体能够获得精确的照明效果;而最新的ReSTIR路径追踪算法则专注于主要光线路径,优化计算资源分配。RTX全局光照技术采用AI驱动,有效减少光线追踪反射所需的计算量。

根据现场展示的Dragon小样,我们可以看到其渲染的三角形数量数不胜数。而RTX Mega Geometry已能智能地在GPU上批量生成三角形集群,减轻CPU的负担,并提升光线追踪场景的性能和图像质量。另外,NVIDIA还宣布,RTX Mega Geometry将很快集成到NvRTX的虚幻引擎分支中,以助力虚幻引擎Nanite几何体系统更高效地完成光线追踪项目。

面向游戏的黑科技再升级,DLSS 4、Reflex 2以及AI队友

根据NVIDIA提供的统计数据,目前有超过540款游戏和应用支持深度学习超级采样(DLSS)技术。在2024年全球评选出的20款最佳游戏中,有15款游戏已经实现了对DLSS技术的支持。此外,超过80%的NVIDIA用户已经使用了DLSS技术,累计使用时间超过了30亿小时。

NVIDIA的DLSS技术,由GeForce RTX Tensor Core提供动力支持,经过最新版本的迭代,已经发展成为一套成熟的解决方案。该技术不仅能够提升游戏的帧率,还能提供更为清晰和高质量的图像输出。DLSS 4引入了显著的创新之一,即多帧生成技术(Multi Frame Generation),这一技术是专为GeForce RTX 50系列GPU设计的。因此,在可预见的未来,只有搭载GeForce RTX 50系列的台式机和笔记本电脑才能享受到这一技术带来的优势。NVIDIA宣称,在DLSS 4推出之际,将有75款游戏和应用程序率先支持DLSS 4多帧生成技术(DLSS Multi Frame Generation)。

DLSS多帧生成技术是在传统渲染方法的基础上,利用人工智能技术在每一帧中额外生成三帧图像,并与其他DLSS技术组件协同运作。

由于DLSS技术允许游戏以较低的分辨率进行实际渲染,并通过算法以全分辨率高质量输出,因此实现了相当于传统渲染技术八倍的性能提升。这使得NVIDIA GeForce RTX 5090能够在开启光线追踪最高画质的同时,以4K分辨率和240帧每秒的极高帧率流畅运行游戏。

根据《黑神话:悟空》的实机演示,我们可以看到搭载了NVIDIA GeForce RTX 5080(两张测试显卡的频率均为2797MHz)的主机在不开启DLSS 4的情况下,运行最高光追效果、最高画质、4K画面下的《黑神话:悟空》帧率为21fps,且功耗达到了355W。而开启DLSS 4之后帧率摇身一变达到了192fps,且功耗下探至298W。值得注意的是,开启DLSS 4之后对CPU的占用率也有一定的拔擢。

DLSS 4标志着自2020年DLSS 2发布以来,AI模型领域中最为显著的升级。在此基础上,DLSS光线重建技术(DLSS Ray Reconstruction)、DLSS超分辨率(DLSS Super Resolution)以及DLAA(Deep Learning Anti-Aliasing)深度学习抗锯齿技术均被整合进实时计算的Transformers模型中,取代了先前的卷积神经网络渲染(Convolutional Neural Networks,CNN)。Transformers模型在商业应用中得到了广泛采纳,而诸如ChatGPT、Flux和Gemini等尖端AI模型,均是基于Transformers架构构建的。NVIDIA宣称,DLSS Transformers的引入将带来更高的稳定性、减少的伪影现象以及更精细的运动细节,从而进一步提升图像质量。

需要说明的是,多帧生成技术是GeForce RTX 50系列的专属特性。但DLSS Transformers技术并非仅限于GeForce RTX 50系列GPU使用。所有兼容DLSS光线重建技术(DLSS Ray Reconstruction)、DLSS超分辨率(DLSS Super Resolution)以及DLAA技术的游戏,未来都将采用DLSS Transformers架构。这表明,即便是使用旧款GeForce RTX GPU的用户,也能够在不增加额外成本的情况下享受到更佳的性能表现。此外,由于新技术的应用减少了显存的需求,帧生成技术的性能提升也将惠及GeForce RTX 50系列和GeForce RTX 40系列用户。

我们知道,在借助DLSS之后,玩家还需要利用NVIDIA Reflex来降低系统延迟,从而让玩家的实际操作更为连贯。而多帧生成技术可以在帧生成的基础之上对帧率再度进行大幅度提升,也势必会让系统延迟有所提升,因此NVIDIA推出Reflex 2技术,并首次采用了Frame Warp技术从而让系统延迟得以进一步降低,让玩家们的实际操作更为跟手。

尽管游戏人工智能在游戏产业中已有数十年的应用历史,传统上游戏中的非玩家角色(NPC)仅能依据预设的脚本与玩家进行有限的互动,NVIDIA ACE的出现颠覆了这一传统,为NPC提供了全新的自主交互模式。NVIDIA ACE技术于2023年首次亮相,它将生成式AI对话技术应用于游戏角色开发之中。

得益于生成式AI的辅助,NVIDIA ACE所塑造的游戏角色能够展现出更加自然的互动能力,并且能够与玩家的文字、音频乃至视觉输入进行实时响应,这一切得益于与之配合的本地小型语言模型,左边为《动物朋克》中的AI NPC演示,右边为《永劫无间手游》PC版的AI队友演示。

在CUDA Core、RT Core以及Tensor Core的效率方面,基于Blackwell架构的GeForce RTX 50系列GPU相较于前一代产品实现了显著的提升。因此,对于设计和创作专业人士而言,RTX 50系能够提供更为出众的工作效率。此外,该系列GPU搭载了GDDR7显存,其最大容量可达32GB,足以应对高负荷应用的需求。不仅如此,RTX 50系GPU还配备了第九代编码器(NVENC)和第六代解码器(NVDEC),得以显著提高了视频转码的效率。

同时,NVIDIA GeForce RTX 50系列支持4:2:2专业级色彩格式的能力,并且拥有远超CPU的效率,无疑使得该系列成为视频剪辑专业人士的优选。

在将神经渲染技术与普及的人工智能计算引入游戏体验的过程中,必须权衡三个关键要素:首先是精确度,其次是显存占用,最后是性能。在众多应用案例中,NVIDIA发现FP4是一个较为理想的选择,因为它在精确度上的损失相对较小。此外,为了确保游戏引擎内部或其辅助运行的人工智能模型更为紧凑,以尽可能减少对带宽的需求,即便采用GDDR7显存也是如此。因此,Blackwell采用FP4进行矩阵乘法或累加运算,从而让吞吐量提升了一倍。

可以看到,在Blackwell采用FP4之后,AIGC对显存的需要从23GB下降至10GB,并且图片生成效率得以大幅降低,从15秒降至5秒。

现场为我们展示了基于NVIDIA NIM、FLUX ComfyUI和Blender的跨平台实时渲染协作,用户在对场景的角度、物件进行添置,之后通过填写关键词便可以大幅度复用渲染素材,生成自己需要的模型、场景或图片。

值得一提的是,专为RTX AI PC设计的NIM微服务工作流支持多种应用场景,涵盖大型语言模型(LLM)、视觉语言模型、图像生成、语音识别、检索增强生成(RAG)、PDF内容提取以及计算机视觉等领域。特别是Llama Nemotron Nano模型,它将作为NVIDIA Instant NeRF微服务的一部分,针对RTX AI PC和工作站进行优化,尤其在指令遵循、函数调用、聊天交互、编码任务以及数学问题解决等代理式AI任务上表现出色。NIM微服务的设计目标是与各类AI开发和智能体框架实现无缝对接,包括但不限于VSCode AI工具包、AnythingLLM、ComfyUI、Flowise AI、LangChain、Langflow以及LM Studio等。开发者可以便捷地从NVIDIA官方网站下载并部署这些微服务。基于NIM微服务,NVIDIA AI Blueprint提供了复杂AI工作流的参考实现,旨在协助开发者将多个组件,包括库、软件开发工具包(SDK)和AI模型,整合至单一应用中。AI Blueprint为开发者提供了构建、运行、定制和扩展参考工作流所需的所有资源,其中包括参考应用和源代码、示例数据以及用于定制和编排不同组件的详细文档。

此外,NVIDIA对Broadcast进行了升级,该应用专为直播主设计,旨在进一步改善录制过程中的光线效果,并对音频通信进行降噪与增强处理,以满足当前直播环境的需求。

自Blackwell架构问世,再到生成式人工智能创作以及围绕RTX AI PC构建的生态系统,GeForce RTX 50系列GPU正致力于实现NVIDIA在人工智能、游戏和内容创作等领域的宏伟蓝图,同时新旗舰级的出色性能令市场对RTX 50系列GPU的推出充满期待。在接下来的时间里,我们将对Blackwell架构进行更深入的评测解析,包括但不限于探讨GeForce RTX 50系如何发挥其技术优势,在光追游戏、传统游戏性能的对比、在创作应用层面的表现以及不同场景下的实际能效情况,请各位持续关注。

来源:微型计算机

相关推荐