摘要:随着科技春晚CES 2025的召开,NVIDIA正式推出了搭载全新的Blackwell GPU架构的GeForce RTX 50系列显卡,该系列不仅在性能上碾压前代产品,更是通过AI和神经渲染技术,将游戏画质和互动体验提升到一个全新高度。今天,我们就来深入解析
随着科技春晚CES 2025的召开,NVIDIA正式推出了搭载全新的Blackwell GPU架构的GeForce RTX 50系列显卡,该系列不仅在性能上碾压前代产品,更是通过AI和神经渲染技术,将游戏画质和互动体验提升到一个全新高度。今天,我们就来深入解析一下GeForce RTX 50系列显卡的那些“黑科技”,看看它到底有多“炸”!
Blackwell架构
Blackwell架构是本次更新的重点,以大卫·布莱克威尔,受人尊敬的数学家和统计学家。布莱克威尔在博弈论和统计学方面的开创性工作和贡献在该领域留下了不可磨灭的印记,使他的名字成为数学科学创新和卓越的代名词。这一致敬反映了新平台的开创性和先进的计算能力。它可以说是NVIDIA近年来更新幅度最大的GPU架构了,相比起之前的架构来说,划时代的引入了神经网络着色器,力图为游戏开创先进、高效更有逼真的渲染方式,带给玩家全新的游戏体验。
据NVIDIA介绍,在设计Blackwell架构时,就对其寄予厚望。完全围绕新的神经网络功能和更低的功耗负载进行设计与优化,旨在减少整体的内存占用,提高能源使用效率以及引入新式服务品质功能。
省流总结:Blackwell架构上主要升级了第五代张量核心,它能提供高速FP 4精度的计算能力和高达4000 AI TOPS的性能,另外,还升级了第四代RT(光线追踪)核心,专为Mega Geometry设计,能够提供高达360 RT TFLOP的性能。其中Mega Geometry是新一代AI管理处理器,可同时执行AI模型和图形工作负载。根据NVIDIA的介绍,全新的Blackwell SM具有125 TFLOPS的峰值FP 32计算能力,同时得益于GDDR7显存的应用,可实现高达30 Gbps的速度传输,每一项都是顶级的体验。
全新的SM多单元流处理器
接着我们再细说一下这一代架构的变化,先从核心来看,全新的Blackwell架构相较于RTX 40系的Ada架构还是有不小变化的,Ada架构内的SM内,着色单元(也就是CUDA核心)会拆分成一半专门用于处理FP 32(单精度浮点数),另一半则依需求动态调整去处理FP 32和INT 32(32位整数)。而在Blackwell架构上,着色单元则改成了完全依需求动态处理FP 32和INT 32的形式。
另外还有一个改进是,过往的着色工作负载往往只有CUDA核心处理,而Blackwell架构上引入了神经网络着色的方式,使得Blackwell架构上的第五代Tensor核心也能共同分担着色工作,大大提高了着色效率。
这样改进的好处是,Blackwell架构能够进一步针对神经网络着色工作负载进行排序,即把传统的着色工作分配给CUDA核心,而需要动用神经网络运算的工作负载则可以给到Tensor核心上,两种核心同时运用,能够将整体的重新排序效率提升2倍。
第五代Tensor核心
第五代Tensor核心除了能够加速重新排序,它还支持FP 4精度模型的加速处理,相较于Ada架构上的第四代Tensor核心支持FP 8精度模型,吞吐量整整提升了2倍!如果对比Pascal架构的核心吞吐量的话,提升幅度高达32倍!得益于第五代Tensor核心的引入,这才让DLSS 4能够实现逆天的多帧生成功能。
根据NVIDIA的实测,采用FP 4精度去生成同一张图片时,不仅生成速度更快,同时显存占用也更少,相较于传统的FP 16精度,FP 4精度最多可以实现2倍以上的性能提升,以及节省50%的显存消耗。
第四代RT核心
第四代RT核心也有进步,相较于第三代RT核心来说,Blackwell架构的第四代RT核心支持原有的Box Intersection Engine和Opacity Micromap Engine,不过把原有的Triangle Intersection Engine扩展成Triangle Cluster Intersection Engine,再加入 Triangle Cluster Decompression Engine 和 Linear Swept Spheres。说人话就是过往的三角形相交引擎升级为三角形簇相交引擎,该引擎针对Mega Geometry进行了优化,可以更有效地处理Mega Geometry和标准几何体的簇。
同时Mega Geometry引擎还具有新的三角簇压缩格式,综合来看,Blackwell架构的光线追踪多边形相交效率是上一代Ada架构的2倍,是Turing架构的8倍,同时显存使用率却只有Ada架构的75%。
先进的AI管理处理器
此外,AI必将是未来的重点之一,游戏中应用AI技术的情况越来越多,而如何去分配显卡内部多样化工作就成了一个问题。例如过往显卡在开启DLSS玩游戏时,其中应用到的语言模型和游戏引擎需要同时与GPU的不同核心交互,生成游戏帧,但是往往很难做到每一帧都有一致的生成时间,亦或者是游戏AI对话的响应不够及时,这些情况都会造成游戏体验不友好。
而AI管理处理器(AMP)的出现,就是解决这些问题的关键。它能够实时调度资源,确保在神经渲染、帧生成和 AI 驱动的游戏交互中实现智能化的任务分配。这种设计不仅带来了更高效的性能输出,还让显卡在游戏渲染和 AI 运算之间实现了绝佳的平衡,确保帧的间隔均匀,对话类型的AI能够及时响应,玩家的游戏体验一致性能够比较好的保障。
首发GDDR7显存
显存方面同样是更新的重点,前两代Ampere和Ada架构的GPU均使用的是GDDR6X显存,其信号采用PAM4编码,而这一代Blackwell架构的GPU首发最新的GDDR7显存,并且信号编码改成了PAM3,这样可以使杂讯失真比较小,信号品质更清晰,同时也能带來更高的显存运行频率以及更低的电压,根据NVIDIA的介绍,使用GDDR7显存后,数据传输速率可达GDDR6时的2倍,并且功耗接近GDDR6的一半,经典加量还减价。
第9代编码器与第6代解码器
对于创作者而言,Blackwell架构也迎来了更全面的视频规格支持,GeForce RTX 50系列显卡上将换装第9代编码器与第6代解码器,支持AV1 UHQ(超高画质 AV1)与MV-HEVC(多视角HEVC)编解码。
另外Blackwell架构也终于能够实现4:2:2色度取样的视频编解码,相较于4:2:0来说,它能够纪录更多的色彩信息,提升画面品质。同时显示输出引擎也同步升级至 DisplayPort 2.1 UHBR20,单一通道可实现20Gbps的带宽,单一线材具备4通道即可达80Gbps的能力。
速度上,同样是4:2:2的视频编解码,采用RTX 5090能够比直接用CPU编解码快整整11倍以上。
同时,Blackwell架构中RTX 5090配备了三个第九代编码器,编码效率相比上代显卡也是史诗级进步,能够大大提升创作者的效率。
另外,Blackwell架构GPU还引入了用于检测实际画面输出延迟的Flip Metering,输出更稳定的同时,也为多帧生成技术提供数据支持。
出色的节能设计
性能硬件上的提升已经足够出色了,Blackwell架构还在电源效率上下功夫,拥有先进的节能设计,并且这些节能设计并不只是局限于过往笔记本或MAX-Q版本,台式机也能享受这些节能红利。
首先是闲置运算单元的部分,NVIDIA为Blackwell开发了新的电源控制模式——Rail Gating,简单来说就是可以单独微调显卡内部不活跃部件的供电情况,即如果你的存储暂时没用,或者你的部分核心暂时没用,则可以通过调整这部分的电源供应,实现节能的效果。
另一种省电的方法是Blackwell的频率切换速度比Ada架构时提高了上千倍,即便是进入低电源状态的睡眠、唤醒速度也提高了数个量级。得益于上面这些特性,现在Blackwell GPU效能更好,可更早完成工作负载并进入低功耗状态,而在有负载时,凭借更快的频率切换速度也能更快的提升性能释放,同时也可以针对性的供电,让一些不活跃的核心也能维持在低功耗状态,从而实现更有效的电源利用。根据NVIDIA的介绍,这样至少能够节约50%的电源消耗。
技术解析:DLSS 4
介绍完NVIDIA引以为傲的RTX神经渲染,再让我们看看应用RTX神经渲染的最好例子——DLSS。它不仅能提高帧率,还可同时提供清晰锐利的高质量图像,效果与原生分辨率渲染媲美。目前支持DLSS的游戏已经多达540款,而玩家使用DLSS的时间更是长达3亿个小时,可以说DLSS给玩家带来了划时代的游戏体验。
目前DLSS已经迭代至DLSS 4,DLSS 4进一步整合了多帧生成 (Multi Frame Generation)、光线重建 (Ray Reconstruction)和超级分辨率 (Super Resolution)等多种先进技术,通过 AI 模型对帧间信息进行深度分析与融合,最终呈现出更具沉浸感与真实感的画面。
什么是DLSS 多帧生成?
在 DLSS 3 帧生成技术中,AI 模型使用运动向量和深度等游戏数据以及来自 GeForce RTX 40 系列光流加速器的光流场来生成一个额外的帧。由于每生成一个新的帧都需要光流加速器和 AI 模型参与,因此生成多帧的开销相当高昂,而过高的性能开销会带来瓶颈,导致帧率提升受限。
而DLSS 4则引入了多帧生成技术,由 GeForce RTX 50 系列和第五代 Tensor Core 提供支持,利用 AI 可为每个渲染帧额外生成多达3帧!通过对前后帧的分析,准确预测出每一帧的变化,并利用AI技术生成高质量的图像,可实现传统渲染8倍的性能提升。
DLSS多帧生成技术还会与 DLSS 光线重建和DLSS超分辨率等其他技术协同工作。光线重建技术可以根据生成的多帧更好地处理光线追踪效果,使光线效果更加逼真和自然;超分辨率技术则可以在多帧生成的基础上,进一步提升画面的分辨率和细节,确保在高帧率下画面质量也能保持较高水平。
另外,由于多帧生成技术,为了防止画面效果变差,NVIDIA还引入了专属的Flip Metering来代替CPU Pacing,它将帧节奏逻辑转移到显示引擎,让GPU能够更精确地管理显示时间,尽可能的将每一帧画面的生成时间保持一致,从而提高整体游戏视觉的流畅感。
新Transformer模型架构
DLSS 4 还引入了图形行业首个 Transformer 模型实时应用。基于Transformer架构的 DLSS 超分辨率和光线重建模型,相比卷积神经网络(CNN)模型来说,具备2倍的参数量和4倍的计算量。在游戏场景中,能够提供更高的稳定性、更少的拖影、更高的细节和更强的抗锯齿能力,使画面更加清晰、流畅和逼真。
不过虽然DLSS 4的多帧生成功能是RTX 50系显卡的独占功能,但新的Transformer模型将会逐步下放至DLSS 3、DLSS 2等,将适用于所有GeForce RTX显卡。
Transformer 模型的最大优势在于其强大的全局分析能力。传统的卷积神经网络(CNN)在单帧优化上表现出色,但对动态场景中的复杂变化(如快速移动物体或光线变化)处理有限。而 Transformer 能够捕捉多帧之间的时间关系和全局场景信息,从而更加精准地还原细节,进一步减少“拖影”现象,造福更多的游戏玩家。
显存占用优化
同时得益于多帧生成功能是利用效率极高的AI模型,相较于上一代的硬件光流器进行帧生成的方式,能够显著降低生成额外帧的计算开销。反应在显示中就是能够节约显存占用,例如在《战锤 40 K:暗潮 》中,以4K最高设置游玩,DLSS 4不仅可将帧率再提升10%,还能将内存占用量减少400 MB。
超过75款游戏和应用支持DLSS 4
DLSS 4首发当天已经支持超过75款游戏和应用程序,包括《赛博朋克2077》《战神:诸神黄昏安纳琼斯与大圈》《沙丘:觉醒》《毁灭战士:黑暗时代》等,《黑神话:悟空》将于今年晚些时候升级支持 DLSS 多帧生成。随着时间的推移,支持DLSS 4的游戏和应用数量将不断增加。
对于尚未完成更新至最新DLSS模型和功能的游戏,NVIDIA App将通过全新DLSS优设功能实现相关支持。说人话就是,如果你想玩的游戏还没有提供DLSS,你可以通过NVIDIA App进行设置,强开DLSS技术,同时随着NVIDIA驱动的不断更新,DLSS相关的AI模型也会封装在驱动之中,随着模型的不断迭代,画质与性能也会越来越好,简单的说DLSS越用越好用!
不过DLSS 4技术中的多帧生成功能目前仅支持最新的GeForce RTX 50系列显卡。究其原因还是因为多帧生成需要Blackwell架构内置的增强硬件翻转计量功能,这项功能可以提供流畅、高质量体验所需的速度和准确性。因此想要体验最新的黑科技,还需要玩家更新至GeForce RTX 50系列显卡才行。
技术解析:NVIDIA Reflex 2
延迟是电竞中始终绕不开的话题,玩家的每个动作都会经过复杂的计算,再在屏幕上渲染,这其中的每一步都会增加延迟。虽然延迟往往只有几十毫秒,但是你却能明显的感觉到游戏的不流畅、卡顿。
为了尽可能的降低延迟所带来的不良游戏体验,NVIDIA发布了NVIDIA Reflex技术,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
NVIDIA Reflex技术已经足够厉害了,不过新一代降低游戏延迟的技术NVIDIA Reflex 2还有黑科技!Reflex 2将Reflex低延迟模式与新的Frame Warp技术相结合。在GPU渲染当前帧的同时,CPU会根据最新的鼠标或控制器输入计算出下一帧的相机位置。Frame Warp技术会在GPU渲染的帧即将发送到显示器之前,尽可能晚地对其进行采样,并根据CPU计算出的新相机位置对该帧进行扭曲调整,从而将最新的玩家输入反映到屏幕上,延迟最高可降低75%!
首发支持NVIDIA Reflex 2技术的游戏是《THE FINALS》以及《无畏契约》,该技术也将在 GeForce RTX 50 系列 GPU 上首次亮相,当然后续也会逐步开放给更多的GeForce RTX系列显卡,老玩家也可以体验到最新的技术。
技术解析:RTX神经渲染
如果说硬件架构的升级已经让人感到兴奋,那么Blackwell架构的GeForce RTX 50系列显卡在神经渲染领域的突破则堪称“黑科技级别”。神经渲染(Neural Rendering)是 NVIDIA 对传统渲染方式的一次颠覆,它通过神经网络直接参与到图像的生成中,不再依赖单纯的硬件算力,而是通过智能算法实现了画质与性能的双赢。
自2001年NVIDIA推出首款GeForce 3显卡以来,随着显示API(Direct X)的不断更新,着色技术也不断发展,不断加入更高阶API的支持以及光线追踪功能,不过,随着Blackwell架构的出现,一切都迎来了重大变革, Blackwell将Shader Core和Tensor Core进行了整合,开创性的引入了神经网络渲染器。
神经渲染你听起来或许有些陌生,但如果我说DLSS 技术中的 Upscaling 超解析度放大,你可能就能够理解了,这其实就是一个简单易懂的神经渲染应用实例。该技术通过较低输入解析度的渲染画面,借助神经网络拓展成高解析度画面,从而在不增加硬件负担的情况下,显著提升画面的清晰度和细节表现。
在Blackwell架构中,NVIDIA 进一步拓展了神经渲染的范畴,引入了诸多创新元素,包括神经纹理(Neural Textures)、神经材质(Neural Materials)、神经体积云(Neural Volumes)、神经辐射场(Neural Radiance Fields)以及神经辐射缓存(Neural Radiance Cache),这些元素共同构成了神经渲染中神经网络着色的重要呈现方式。
过去复杂的物品或大量异材质的贴图往往会占用相当大的内存空间。然而,得益于神经网络渲染技术中的RTX Neural Materials材质功能,这一问题得到了显著改善。RTX Neural Materials通过在游戏引擎端结合Latent Representation和Neural Shader,显著降低了实际生成的材质数据量,从而在占用更少显示内存的同时,实现了细节更丰富的材质表现,达到了实时生成如电影般细腻素材的效果。
实际效果如下,例如神经辐射缓存可以利用经过游戏数据训练的神经网络,更准确且高效地预估游戏场景的间接照明。只需追踪一两条光线并将其存储到缓存中,便能推断出无限多条光线和反射状态,从而更精准地展现游戏场景中的间接照明效果。同时由于需要追踪的光线数量大幅减少,整体性能表现也显著提升,游戏帧数也会更好看一些。
人像也是神经网络渲染的重点之一。传统的人脸渲染方式与现实之间存在一些细微的偏差,这些偏差累积起来很容易让角色不够真实,总有种AI的感觉。而 RTX Neural Faces 可以通过 AI 计算结合 3D 姿态数据,生成更自然的面部表情和动作,特别是在角色互动和剧情表现上,彻底打破了传统渲染技术的限制。
除了人脸渲染外,头发渲染也一直是传统电脑图形学中的难题,因为每根头发都需要大量的多边形来构建,例如一位男士的头发可能需要多达400万个三角形,再加上光线追踪技术,画面所需要的运算负载极大。NVIDIA则通过Linear - Swept Spheres(线性扫描球体)技术有效减少了渲染头发所需的几何体数量,以球形代替多边形,更贴合头发的形状,从而将内存占用量大幅缩减至三分之一,并进一步提升了实际帧数,让头发的渲染效果更加自然流畅。
另外,随着光线追踪游戏场景的几何复杂性不断增加,游戏画面中几何图形的计算量也呈现出快速增长的趋势。因此NVIDIA还推出了RTX Mega Geometry技术,这项技术能够加速构建边界体积层次结构(BVH),使得在实时渲染中可以处理多达100倍的三角形数量。
该技术的出现,也使得开发者能够在游戏场景中使用更复杂的几何图形,而不会影响游戏帧率。过去需要一个个算BVH,现在RTX Mega Geometry能够智能地在GPU上批量更新三角形簇,减少了CPU的负担,既保证了性能,也兼顾了图像质量。相信随着这些技术的不断发展和应用,未来的游戏将能够呈现出更加逼真和细腻的视觉效果,同时保持高效的性能表现。
NVIDIA RTX AI PC与NIM平台
最后我们再聊聊时下热门的AI PC,NVIDIA在AI PC领域其实已经布局多年,早在2018年就已经开始,7年时间,NVIDIA GeForce RTX在推动AI技术发展和应用方面持续努力,不断探索AI技术在不同领域的广泛应用和未来发展趋势。
现在,NVIDIA推出了全新的NIM for RTX平台,其专为GeForce RTX显卡优化,具备多项特色以提升AI部署的便利性和性能。首先,该平台采用容器化技术,简化了部署流程,使得开发者能够轻松地在不同环境中部署和运行AI模型。其次,NIM for RTX针对GeForce RTX显卡进行了特别优化,确保了在这些高性能显卡上运行AI模型时能够获得最佳性能。
此外,NIM for RTX提供了业界标准的API,使得开发者可以利用这些API轻松地集成和扩展AI功能。平台还包含了领域特定的代码,这些代码针对特定AI领域进行了优化,以提高模型的准确性和效率。NIM for RTX还支持定制化,允许开发者根据自己的需求调整和优化模型。
在推理后端方面,NIM for RTX提供了强大的支持,确保了模型推理的高效和准确。初期推出的NIM for RTX已经覆盖了多种AI领域,包括语言处理、视觉语言、RAG(Retrieval-Augmented Generation)、演讲、动画、计算机视觉和图像处理等。随着技术的不断发展,NVIDIA还计划继续优化现有模型并推出新款NIM,以满足不断变化的市场需求和提供更广泛的AI应用支持。
同时,RTX NIM还可以与各种顶级AI工具相配合使用,用户构建和定制聊天机器人、AI代理和创意工作流程将变得更加容易。同时玩家还可以通过图形用户界面(Graph UI)和聊天用户界面(Chat UI)与AI进行互动,利用模型调优工具来优化AI模型的性能,整体可玩性更高,也展示了RTX NIM平台的丰富性。
NVIDIA也展示了一些可用的场景,例如NIM可以将静态的PDF文档转化为动态的播客内容。用户可以实现从PDF中提取文本、生成转录本、生成播客以及通过问答环节与播客主持人互动。这样不仅提高了内容的可访问性和吸引力,还为内容创作者提供了一种新的内容创作和分发方式,知识和信息的传播更加广泛和有效。
另外NIM还可以实现数字人AI功能,通过集成语音识别、面部表情捕捉和向量化处理等技术,数字人能够与用户进行自然和直观的交互。这些数字人不仅可以用于娱乐和教育,还可以在客户服务、虚拟助手和在线会议等领域发挥重要作用,为用户带来更加丰富和个性化的体验。
游戏领域:AI 驱动的 NPC 与互动体验
RTX NIM在游戏领域的应用也尤为引人注目。通过 NVIDIA 的 ACE(AI Co-playable Characters)技术,游戏开发者可以为游戏中的 NPC(非玩家角色)赋予更人性化、更具互动性的设计。
例如,PlayerUnknown’s Battlegrounds(绝地求生)即将推出的 PUBU Ally 功能,就是由 AI 驱动的队友功能。玩家可以通过自然语言与队友进行交流,指挥队友执行各种战术动作,如将船舰重新漆成紫色等。这种 AI 驱动的 NPC 不仅能够讨论战略、提供建议,还能与玩家进行日常的闲聊,为游戏增添了更多的趣味性和互动性。
另一款 inZOI 生活模拟类游戏也利用了 RTX NIM 和 ACE 技术,使游戏内的角色具备了自主思考和决策的能力。这些角色可以在早上起床后自行安排一天的生活,对各种事件做出反应,并通过自然语言与玩家进行交流。玩家甚至可以定制角色的个性、关系和记忆,使每个角色都具有独特的性格和背景故事。
直播领域:智能助手与直播体验升级
在游戏直播领域,RTX NIM同样发挥着重要作用。新推出的 Streamlabs Intelligent Streaming Assistant 可以为直播主提供智能的辅助功能,如同伴一样与直播主进行互动,对游戏内容做出反应,或通过自然语言下达命令。
此外,NVIDIA Broadcast 直播软件也获得了功能更新,其 Studio Voice 功能可以通过 AI 分析去除背景噪音,还原语音的完整频率响应范围,为直播主提供清晰、自然的语音表现。Virtual Key Light 功能则能够实时分析直播主的面部光线,自动调整打光效果,解决光线不均匀、暗沉等问题,使直播主在镜头前始终保持最佳形象。
创作领域:AI加速3D工作流程
在创意创作领域,NVIDIA在生成式AI领域取得了显著进展,尤其是在3D工作流程的加速上。例如NVIDIA NIM带来了不少创新功能,未来Blender已经可以与Comfy UI相结合,利用AI技术将3D场景转化为逼真的图像,这一创新将大大提升设计师的工作效率,另外对普通用户也十分友好,你无需懂得详尽的软件操作方式,也能生成逼真的场景。
其次,Stability AI宣布了其SPAR3D模型,该模型能够利用RTX AI PC在几秒钟内从单张图像生成3D物体的完整结构并且可以实时编辑。
性能方面,NVIDIA也强调了,如果你使用的是GeForce RTX 50系列,生成式AI加速3D工作流程最高能够提高1.5倍的性能,显著提升创意工作者的生产效率。
结语
整合来看,GeForce RTX 50 系列显卡不仅仅是性能上的一次迭代,更像是技术范式的转型。它让显卡不再只是一个单纯的硬件工具,而是一个主动参与玩家体验的智能“助手”。无论是 DLSS 4 提高帧率、降低延迟,还是神经渲染技术带来的画质飞跃,这一代显卡都在用实际表现证明,它正在重新定义游戏体验的边界。对玩家来说,这次升级无疑是一次“完胜”!玩家不再需要在“画质”和“性能”之间做痛苦选择,因为 GeForce RTX 50 系列能够轻松兼顾两者。无论是沉浸在4K 光追画面的细腻画质,还是在电竞赛场上争分夺秒,GeForce RTX 50 系列都能成为你的最佳搭档。
还是那句话,如果你是一位追求极致画质的硬核玩家,GeForce RTX 50 系列将会是你的不二之选。而对于那些还在等着“显卡降价”的观望者来说,这一代显卡或许会给你一个果断升级的理由。GeForce RTX 50 系列不仅仅是性能爆表的硬件,它更像是未来游戏体验的入口。它告诉我们,显卡的作用不再只是单纯堆砌性能,而是用技术创新为玩家带来前所未有的新体验。未来已来,而GeForce RTX 50 系列,正是未来的起点。
来源:太平洋电脑网