摘要:NVIDIA在CES 2025上正式发布了采用全新Blackwell架构的RTX 50系列GPU,而其中的旗舰RTX 5090 D终于在1月24日迎来了性能解禁。作为NVIDIA的重要合作厂商,技嘉也在第一时间推出了配备RTX 5090 D GPU的AORUS
NVIDIA在CES 2025上正式发布了采用全新Blackwell架构的RTX 50系列GPU,而其中的旗舰RTX 5090 D终于在1月24日迎来了性能解禁。作为NVIDIA的重要合作厂商,技嘉也在第一时间推出了配备RTX 5090 D GPU的AORUS GeForce RTX 5090 D MASTER ICE超级雕(以下简称RTX 5090 D超级雕(白)),为发烧级玩家带来了新一代纯白旗舰显卡之选。
RTX 5090 D超级雕上机实拍
Blackwell架构解析:为AI渲染而生
RTX 5090 D采用全新的Blackwell架构,新架构设计的目标主要有四点:一、为新的神经网络渲染进行优化;二、减少显存占用;三、为服务功能提供新的质量;四、高能效。可以说,RTX Blackwell架构的诞生,代表GPU的发展开始摆脱摩尔定律的限制,同时也宣告光栅化渲染时代正式进化到AI渲染时代。
NVIDIA GeForce Blackwell神经网络渲染架构拥有第五代Tensor Core和第四代RT Core,RTX算力高达360 TFLOPS,为全新的Mega Geometry提供强大的性能支持;搭载AI管理处理器,在AI计算与图形渲染之间智能分配算力,实现最佳平衡;全新设计的Blackwell SM单元,为新的神经网络着色器提供高达125 TFLOPS的强大算力;首次搭载GDDR7显存,提供高达30Gbps传输速率。
Blackwell的SM单元经过了全新的设计,整个架构完全为新的神经网络渲染而打造。从图中可以看到,和上代针对常规渲染设计的Ada SM相比,Blackwell SM将支持INT32的着色器单元数量增加了一倍(INT32/FP32着色器单元总数不变), 同时将着色器执行排序的效率提升到上代的两倍(对常规渲染和神经网络渲染的代码进行排序)。
Blackwell是第一款搭载GDDR7显存的GPU,相对GDDR6显存来讲,GDDR7提供了两倍的数据传输速率,同时由于GDDR7使用了PAM3的模式,拥有比GDDR6X PAM4模式更低的工作电压,所以不但速率更高,功耗也更低,相对GDDR6更是提升了一倍的能效。
Blackwell架构的一项重大技术升级就是支持Mega Geometry,可将场景中的光线追踪三角形数量至多增加 100 倍,从而可以在游戏或者3D应用中提供超高的几何细节,打造极为逼真的模型。而实现Mega Geometry的硬件基础当然就是Blackwell搭载的第四代RT Core,它相对上代Ada架构的第三代RT Core增加了三角形集群交汇引擎、三角形集群解压缩引擎与线性图形扫描单元(专用于加速毛发渲染)
从图中可以看到,Blackwell的第四代RT Core相比第一代RT Core提升了7倍的光线三角形交汇率,相对上代RT Core也有一倍的提升。同时,和上代Ada架构相比,Blackwell架构由于支持几何压缩,显存占用率也下降了25%之多。
Blackwell另一大亮点就是其搭载的第五代Tensor Core支持FP4精度的计算,如果和Pascal架构相比,它的算力提升了31倍,相对上代Ada的Tensor Core(FP8),也提升了一倍。为什么要选择FP4模式?按照NVIDIA官方说法,FP4模式在可以满足渲染精度的同时下能够提供更快的渲染速度,综合来看是当下最符合需求的平衡点。
同时,Blackwell架构还引入了全新的AMP(AI Management Processor),这是一个完全可编程的硬件处理器,它可以精确控制和平衡帧生成与AI计算的所有需求。因此,在混合了LLM大语言模型、DLSS、帧生成等功能的游戏中,AMP优先保证基于LLM的数字人AI队友能够第一时间响应你的命令,同时也能确保帧渲染与刷新率接近或同步,不出现卡顿的情况。
显示与视频部分,Blackwell也带来了一系列的升级,输出部分,它支持DP2.1接口,支持UHB R20,拥有20Gbps的带宽。而在视频编解码部分,它的编码器从Ada的第八代升级到了第九代,解码器也从Ada的第五代升级到了第六代。因此,Blackwell现在支持AV1 UHQ、双倍的H.264解码,MV-HEVC,同时也支持4:2:2格式的硬件编解码了,对于视频剪辑师用户来讲非常实用。
综合来看,Blackwell架构整体设计思路为AI渲染打造强大的硬件基础,无论是新一代RT Core与Tensor Core,还是全新打造的SM单元和首次引入的AMP,都是为AI渲染而生。而正是因为这些变革,才为DLSS 4、神经渲染、Mega Geometry等等新特性提供了硬件基础,从而打破了摩尔定律的桎梏,让GPU的进化走入了一个新的时代、彻底拥抱AI的时代。
RTX神经渲染+DLSS 4黑科技打破传统硬件限制
市场和用户对于GPU性能的需求是无止尽的,而制造工艺的发展速度很显然已经从硬件上对GPU的发展形成了瓶颈,单纯增加GPU的规模显得事倍功半。因此,NVIDIA的解决思路就是打破摩尔定律,让GPU的架构从传统渲染时代进化到AI渲染时代,通过AI来让GPU性能突破硬件限制,达到新的高度。因此,RTX神经渲染以及新一代的DLSS 4成为了RTX 50系性能猛增的核心技术。
自2001年GeForce 3首次引入可编程着色器,NVIDIA始终在引领GPU技术的发展,到现在Blackwell架构则首次将小型神经网络渲染引入传统的可编程着色器,从而打造出神经网络着色器的概念。神经网络着色器可以实现很多功能,包括神经网络材质、神经网络纹理、神经网络辐射缓存、神经网络辐射场等等。
NVIDIA和微软合作创造了一个叫做Cooperative Vectors的新API,这个API就可以让游戏开发者在游戏引擎中使用到神经网络着色器的技术。
RTX神经网络纹理压缩在使用AI的情况下不到一分钟的时间内就可以压缩数千个纹理,同时它还可以节约非常多的显存,在视觉效果相同的情况下,大约只需要传统纹理压缩方式1/7的显存。同时,RTX神经网络材质部分,也使用AI来压缩复杂的着色器代码,而这些代码通常都采用了离线的模式,并可以完成多层材质的处理,处理速度更是提升了五倍,能在实现电影级画质的同时提供游戏需要的流畅帧率。
从图中可以看到,使用神经网络材质占用16MB显存,而使用传统材质要占用47MB的显存,同时视觉效果的逼真程度要高出很多,特别是宝石的光泽、丝绸每一根丝线的光泽变化,已经远超普通渲染的水平。特别值得一提的是,在神经网络渲染模式下,物体表面的材质其实每次都会有细微的差别,因为它真的是由AI实时计算生成的——就像Stable Diffusion文生图那样。
RTX神经网络辐射缓存方面,用于路径追踪间接光照和性能的神经网络着色器支持实时自我训练网络,通过每像素一次弹射可推算出更多的弹射,大幅节约资源,提升效率。
通过RTX Neural Faces,可以实时生成更加生动的AI面容。整个流程是先通过游戏引擎的光栅化引擎渲染出脸部和3D姿势,再通过AI模型来推理,然后对训练之后的脸部模型通过Tensor RT来做优化,最终输出更加接近真实的角色脸部。
我们知道,在游戏中用传统的方式来精准渲染发束会用到非常多的三角形,一个角色的头发甚至要用到六百万个三角形。而Blackwell通过线性扫描球体这个新加入的渲染单元,则可以大幅降低发束对三角形数量的需求,相对传统渲染方式来讲,仅需1/3的数据开销,因此可以提供更高的帧率。
3D游戏中使用的几何体数量在不断攀升,上世纪90年代游戏中的几何体数量在1K到10K,而到了2020年之后,游戏中的几何体数量已经增长到一千万到五千万。更多的几何体也就意味着游戏中的建模更加精细、更加真实,因此从提升视觉效果来讲肯定是多多益善。但是,更多的几何体也就意味着对GPU性能要求更高,因此,Blackwell引入了Mega Geometry,在官方的Zorah演示DEMO中,支持三角形的数量甚至达到了五亿之多。
传统的几何体系统中每一个场景LOD的BVH(包裹体变异)都需要去更新,因此资源开销会非常大,而适用于数百万三角形的集群系统(Cluster)引入,让构建这个系统的成本大幅降低。Mega Geometry则可以在多帧上来压缩和缓存这些集群,从而加快场景更新LOD的BVH的速度,提供对数百万几何体数量高精度模型实现路径追踪的能力。
接下来要谈的AI渲染技术就是大家最关心的DLSS了。DLSS已经诞生6年,并在通过训练不断迭代和进化。到目前为止,支持DLSS的游戏和应用数量已经高达540+,其中2024年前20的游戏大作中就有15个支持DLSS。目前已经有超过80%的RTX玩家会在游戏中开启DLSS,而DLSS游戏的总游玩时间已经超过三十亿小时。实际上,如果要在4K极限画质下实现250+fps和35ms帧延迟的游戏体验,可能需要10块传统GPU,但换成支持AI的GPU,其实只需要一块就够了,这就是Blackwell诞生的目的之一。
而RTX 50系核心灵魂所在的新一代的DLSS 4则使用了新的Transformer模型,相对之前的CNN卷积神经网络模型来讲,提供了两倍的参数、四倍的计算以及更加出色的画质。
从官方提供的对比视频来看,使用Transformer模型的光线重建画面质量明显优于使用CNN模型,大家可以注意《心灵杀手2》场景中铁丝网的细节,Transformer模型这边明显纹理更清晰,完全看不到边缘闪烁的锯齿。
用Transformer模型来做超分辨率效果也会好很多,它可以提供更清晰的纹理细节、更少的鬼影,目前已经有Beta版可供大家体验。
不过,这次DLSS 4最令人兴奋的大招当然是全新的多帧生成技术。我们知道,之前DLSS 3的帧生成技术是AI模型使用游戏本身的数据(运动矢量和深度),通过光流场加速器来生成新的帧,但每帧只能生成一帧,毕竟通过这种方式要生成多帧会导致极高的资源开销。而Blackwell架构则针对DLSS 4的多帧生成设计,包括增强的Tensor Core、增强的Flip Metering和AMP。在此基础上,DLSS 4的多帧生成采用的模型速度提升了40%,使用的显存减少了30%,而且只需要渲染一次就可以生成全部的三帧,生成的帧会均匀排列,从而提供流畅的体验。
从图中可以看到,DLSS 4和多帧生成技术加持的情况下实际渲染的16个像素中,就有15个是AI生成的。综合计算下来,可以让帧率最高提升八倍。
官方展示视频中《赛博朋克2077》在开启DLSS 4和多帧生成(使用Transformer模型)之后,帧率从27fps暴增至248fps。而且,DLSS 4不但帧率提升,画面精度也大幅升级,大家可以看到外卖盒上的纹理细节,DLSS 4明显更加丰富。
首发支持DLSS 4的游戏已经有75款,那么对于暂时不支持DLSS 4的游戏来讲,大家也可以在NVIDIA app中使用DLSS Override功能来提前享受DLSS 4。例如《漫威争锋》就可以通过DLSS Override来提前享受多帧生成带来的巨幅帧率提升。
可能玩家会担心多帧生成会带来更多的延迟,不过NVIDIA的Reflex2显然会让大家打消这个顾虑。NVIDIA在Reflex 2中部署了一个以前应用在VR中的技术(Frame Warp),在每一帧渲染结束之后,Reflex 2都会移动画面对齐最新的鼠标位置。不过,Frame Warp会在画面中产生空白的区域,为此NVIDIA开发了一项Inpaint预测修补技术,这个技术使用前一帧的颜色与深度数据对空白区域进行修复,从而创造出与原生渲染几乎没差别的画面。
综合来看,通过AI技术加持的神经网络渲染,Blackwell实现了空前的性能提升和更加真实的电影级画质,而这些如果要依靠传统光栅渲染来实现的话几乎是不可能完成的任务。由此可见,AI渲染时代已经正式来临,而Blackwell的出现,将彻底改变游戏开发的流程和游戏玩家的体验。
RTX 5090 D更强算力、更高显存带宽皆为AI渲染而生
▲RTX 5090 D在完整的GB202芯片(上图)基础上精简了22个SM单元,因此RT Core和Tensor Core的数量分别为170个和680个
采用Blackwell架构的RTX 5090 D GPU在首发登场的RTX 50系家族中处于顶级旗舰的位置,它使用的GB202芯片芯片面积高达744mm²,相对上代RTX 4090 D的AD202芯片提升了大约22%之多,CUDA单元数量也提升了49%,升级幅度确实相当抢眼。
此外,得益于新的架构设计,RTX 5090 D内置的第四代RT Core和第五代Tensor Core相对上代RTX 4090 D的性能也得到了巨幅升级,提升幅度分别达到了87%和102%,毕竟新架构全面拥抱AI渲染,确实需要更强大的Tensor Core来支持。
纹理单元和光栅单元方面,RTX 5090 D则相对RTX 4090 D分别提升了49%和9%。显存部分,RTX 5090 D率先使用了GDDR7,位宽高达512bit,传输速率达到28Gbps,因此显存带宽相对RTX 4090 D的提升幅度达到了78%,这对于高带宽高容量需求的高分辨率光追游戏、AIGC应用来讲无疑是个针对性很强的升级点。
编解码器部分,RTX 5090 D也进行了大升级,拥有3个第九代编码器和2个第六代解码器,相对RTX 4090 D的2个第八代编码器和1个第五代解码器提升幅度也算是很大了。而且RTX 5090 D增加了H.265/10bit/4:2:2格式的视频编解码,对于视频剪辑师用户来说非常实用。
功率部分,RTX 5090 D官方参考整板功率为575W,采用16Pin辅助供电,而各大显卡厂商生产的OC版基本都会使用600W的功率上限,所以在频率和性能方面的规格会更高。由此也可以理解为什么RTX 50系会彻底拥抱AI渲染,NVIDIA再次为业界指明了GPU的设计方向,不过NVIDIA在AI方面已经领先太多,优势已经无可匹敌。
接下来就让我们一起近距离欣赏来自技嘉的RTX 5090 D超级雕(白)显卡实物。
AORUS GeForce RTX 5090 D MASTER ICE超级雕图赏
RTX 5090 D超级雕(白)采用了全白配色,正面采用分层纹理设计,将力量与优雅完美融合。同时,显卡巨大的体型给人非常霸气的感觉,对于希望打造纯白旗舰游戏主机的玩家来说极具吸引力。
显卡采用了风之力散热系统,配备3个支持正反逆转的仿生风扇,同时还支持在背板上安装一个风扇,组成进气格栅PLUS,不但增强了显卡的散热效果,对整套系统的散热环境也能起到改善的作用。
除了强大的风之力散热系统,显卡还使用了复合金属硅脂,同时具备液态金属和硅脂的特性,提供更好的安全性和导热效果。此外,显卡还配备了新一代导热垫,确保VRAM和MOSFET的散热效果。
DIY设计方面,显卡提供了双BIOS快速切换开关,可以在性能模式和静音模式之间快速切换,满足玩家不同使用环境的需求。显卡配备16pin辅助供电接口,并拥有电源指示灯,可以根据灯光判断供电状态。其中灯光熄灭代表电源连接正常;亮起代表电源线未连接;闪烁代表电源异常。此外,辅助电源接口位置下凹,远离显卡边缘,有效提升了与16Pin供电接头的兼容性和安全性,同时也减少了电源线弯折发生故障的概率。
为了保证显卡的使用安全,它还附带了一个显卡支架,可以自由调节高度,确保超重的显卡在立式机箱中不会倾斜,提供更可靠而稳定的使用体验。
个性化部分,显卡除了支持RGB FUSION灯效同步之外,还在顶部配备了一个LCD显示屏,可以显示自定义视频、图片和动图,打造酷炫的个性MOD。
用料部分,显卡使用了长寿命固态电容、合金电感、2盎司铜PCB与低电阻晶体管,并且采用自动化生产流程,PCB还具备3防涂层,可以防尘、防潮和防腐蚀,大幅提升了显卡的耐用度和寿命。
硬件配置方面,除了RTX 5090 D GPU之外,显卡还配备了32GB GDDR7海量显存,为玩家提供高分辨率下的极致帧率,同时也为AIGC用户提供了当下顶级的显存规格,高分辨率出图更加高效。此外,RTX 5090 D超级雕(白)的GPU加速频率高达2655 MHz,远高于NVIDIA官方参考频率2410 MHz,其功率上限也达到了600W,高于参考标准的575W,因此在性能方面会有更高的表现。
接口部分,显卡提供了一个HDMI 2.1b和三个DP 2.1b接口,足以满足发烧玩家多屏输出的需求。
总的来说,RTX 5090 D超级雕(白)作为RTX 5090 D中的旗舰级代表,拥有顶级的用料和散热设计,完全可以给发烧级玩家带来顶级的游戏体验。
实战测试:游戏/生产力无可匹敌,新王者制霸全场
测试平台
显卡:AORUS GeForce RTX 5090 D MASTER ICE超级雕
处理器:锐龙7 9800X3D
内存:佰维DDR5 6000(C28) 16GB×2
主板:X870E AORUS MASTER
硬盘:WD_BLACK SN850X 2TB
电源:技嘉UD1300GM
操作系统:Windows 11专业版24H2
测试平台部分,我们选择了锐龙7 9800X3D与RTX 5090 D超级雕(白)搭配,将处理器部分的瓶颈效应控制在最小,同时还使用上代的RTX 4090 D与之进行对比。为了保证整板功率600W的RTX 5090 D超级雕(白)能够满载稳定运行,我们还使用了1300W的电源。此外,考虑到RTX 5090 D的旗舰级定位和性能水平,确保它在游戏中能100%发挥性能,我们本次游戏实测都使用4K分辨率。
基准性能测试
先来看看基准性能方面的表现。从3DMark的测试分数可以看到,在常规的DX11和DX12光栅化渲染测试项目中,RTX 5090 D相对RTX 4090 D的优势都超过了35%,在DX12项目中的优势更高,最高甚至可达44%。在DX12U和光追项目(SpeedWay和Port Royal)中,RTX 5090 D的优势更大,最高甚至相对RTX 4090 D提升了57%。综合传统基准性能部分的成绩来看,RTX 5090 D平均领先RTX 4090 D的幅度大约为44%。
而在RTX 50系独享的3DMark DLSS 4测试项目中,拥有最多4×多帧生成的RTX 5090 D领先只有2×帧生成(DLSS 3)的RTX 4090 D的幅度高达162%之多。同时,我们也可以看到,开启4×帧生成之后,RTX 5090 D的帧率相对原生帧率也提升了449%,相对RTX 4090 D的原生帧率提升幅度更是高达714%,可见DLSS 4的多帧生成效果确实非常夸张。
常规游戏性测试
接下来看看4K极限画质设定下光栅化游戏性能的表现。从测试情况来看,RTX 5090 D相对RTX 4090 D的平均帧率提升幅度从24%到59%不等,平均提升幅度大约为34%,其中《赛博朋克2077》《永劫无间》提升幅度都非常抢眼,分别达到了59%和50%之高。而在考查游戏流畅度的1% Low帧方面,RTX 5090 D的表现也非常出色,在《博德之门3》中甚至领先了60%,综合全部游戏平均领先幅度是35%。
光追与DLSS游戏测试
在打开光追和DLSS(CNN模型)的主流3A游戏中,RTX 5090 D相对RTX 4090 D的平均帧优势从16%~39%不等,平均领先幅度大约为39%。而1% Low帧部分,RTX 5090 D相对RTX 4090 D的领先幅度最高也达到了39%,平均领先21%。所以无论是绝对帧率还是游戏平滑度,RTX 5090 D都是大幅超越上代RTX 4090 D的存在。
生产力性能测试
RTX 5090 D提供了更多的CUDA单元和更为强大的32GB/512bit/GDDR7显存,因此在各种3D设计工具软件中也会提供更高的执行效率。从测试结果来看,RTX 5090 D在Blender中相对RTX 4090 D有32%~45%的提升;在V-Ray GPU RTX渲染中有37%的提升;在SPECView2020V3.1中的平均提升幅度则为12%。由此可见,对于经常要用到3D设计工具的用户来讲,RTX 5090 D相对上代提升巨大,是更加高效的升级选择。此外,RTX 5090 D新增了对4:2:2/10bit格式视频编解码的支持,我们使用Davinci Resolve 19 + Voukoder进行了编码测试对比,确实有明显的提升。
▲RTX 5090 D的两个第六代解码器在剪映中可以同时流畅解码5条H.265/4:2:2/10bit视频不掉帧,而CPU即便拥有16核32线程,在面对这样的解码需求时也会严重卡顿
RTX 5090 D在视频解码方面同样十分强大,它配备的两个第六代解码器在剪映中可以同时流畅解码5条H.265/4:2:2/10bit视频不掉帧。但如果用CPU来解码,就算是拥有16核32线程的锐龙9 9950X,来完成同样的解码工作也会出现严重卡顿,无法流畅预览。可见对于视频剪辑师来说,RTX 5090 D新一代的编解码器确实会带来更高的工作效率。
DLSS 4应用与游戏测试
首发宣布支持DLSS 4的游戏有75款,现在我们可以通过NVIDIA提供的测试代码来激活一些游戏的DLSS 4测试分支版本,更多的游戏将会在晚些时候陆续上线对DLSS 4的支持。在原生支持DLSS 4的游戏中,我们可以选择多帧生成的倍率(4×、3×、2×),而在非原生支持DLSS 4的部分游戏中,我们也可以通过NVIDIA APP来设置使用的模型(新的Transformer或者上代的CNN)与多帧生成倍率。
▲RTX 5090 D在《赛博朋克2077》中启用DLSS 4 + 4×帧生成,4K极限光追画质下也可以能达到300fps左右的帧率
在《赛博朋克2077》的DLSS 4测试分支版本中,我们可以详细比较RTX 5090 D使用Transformer模型的DLSS 4模式不同倍率帧生成设置下的帧率,也可以比较CNN和Transformer模型同在2×帧生成下的效率(使用CNN模型的DLSS 3只支持2×帧生成)。
从测试结果来看,在DLSS 4模式下,启用4×、3×和2×帧生成,RTX 5090 D的帧率相对原生分别提升了746%、571%和、377%,提升幅度可以说是非常夸张了。同时,我们也可以看到,使用Transformer模型实现2×帧生成,相对DLSS 3的CNN模型也有7%的帧率提升,可见新模型的使用确实也进一步提升了DLSS 4的性能。
上代RTX 4090 D在《赛博朋克2077》中只能使用CNN模型加持的DLSS 3模式,因此只支持2×帧生成,而拥有4×帧生成的RTX 5090 D帧率足足是它的260%,相对它的原生帧率更是提升了惊人的1038%。
▲RTX 5090 D在《霍格沃兹之遗》中启用DLSS 4 + 4×帧生成,4K极限光追画质下实时帧率可以轻松达到300fps~400fps+
《霍格沃兹之遗》的DLSS 4测试分支版本中,4×帧生成和3×帧生成使用了新的Transformer模型,不过在2×帧生成模式下,它还是调用的CNN模型。从测试结果来看,RTX 5090 D使用DLSS 4和4×帧生成,相对原生的帧率提升了309%,3×则提升了195%,使用上代的DLSS 3 + 2×帧生成模式,也提升了97%之多。如果和RTX 4090 D的DLSS 3 + 2×帧生成相比,最高提升幅度达到了108%,和RTX 4090 D原生帧率比,则提升幅度最高达到432%。大家可能担心开启4×帧生成会带来更高的延迟,但从我们的测试来看,使用4×帧生成的渲染延迟与平均PC延迟与2×帧生成相比并没有明显变化,可见完全不用担心这个问题。
▲RTX 5090 D在《霍格沃兹之遗》中启用Override模式的DLSS 4 + 4×帧生成,4K极限画质下实时帧率高达400fps+
《漫威争锋》暂时没有原生支持DLSS 4,不过可以在NVIDIA APP中使用Override模式来开启DLSS 4和多帧生成。可以看到,在 4×/3×帧生成模式下,RTX 5090 D的帧率相对于原生分别提升了289%和217%,而同样使用2×帧生成模式,使用Transformer模型相对CNN模型也提升了6%。而RTX 5090 D采用4×帧生成的帧率相对采用DLSS 3 + 2×帧生成的RTX 4090 D则提升了137%,和原生比更是提升了419%。延迟部分,可以看到RTX 5090 D在几种帧生成比例下的渲染延迟与PC延迟差别都很小,所以对于玩家来讲直接启用DLSS 4的4×帧生成无疑是获得高帧率和流畅操作的最佳选择。
▲RTX 5090 D在D5渲染器中使用Override模式开启DLSS 4和4×帧生成,实时预览帧率暴增
AI性能测试
▲RTX 5090 D在UL Procyon的AI出图测试中使用FLUX.1模型/FP4精度设置,出图速度相对FP8精度提升约70%
前面介绍过,Blackwell架构的一大革新就是内置的第五代Tensor Core支持FP4精度的计算,相对Ada架构的Tensor Core性能提升了一倍。我们这里就使用UL Procyon的AI生图测试来考查RTX 5090 D的在FP8和FP4精度下的AI性能。从测试来看,同样使用FLUX.1模型生成1024×1024的图片,RTX 5090 D在FP4下的出图速度相当于FP8模式下的170%,而RTX 4090 D不支持FP4模式,所以从FP8模式切换到FP4模式出图时间几乎增加了一倍,所以RTX 5090 D在FP4模式下出图速度大约比RTX 4090 D快了413%。由此可见,对于需要快速AI出图、且对精度要求并不苛刻的用户来讲,支持FP4精度的RTX 5090 D无疑是效率远超上代旗舰的神器。
功率与温度表现
▲RTX 5090 D超级雕(白)满载考机整板功率600W,GPU温度不到72℃,风扇噪声小,散热效果出色
▲RTX 5090 D超级雕(白)在游戏中的实时功率从400W~600W不等,视游戏而定
我们使用FurMark对RTX 5090 D超级雕(白)进行满载考机测试,可以看到这时候整板功率达到了600W上限,GPU功率则保持在230W水平。得益于强大的风之力三风扇散热系统,RTX 5090 D超级雕(白)的GPU和显存考机温度都仅有72℃左右,风扇噪声也控制得很好,对于旗舰级显卡来讲,这样的使用体验也是非常突出的,即便玩家长时间玩游戏或进行AI计算,也不用担心过热影响稳定性和使用寿命。
总结:AI渲染时代的新王者,游戏与工作双料神器
最后来简单总结一下。采用全新Blackwell架构的RTX 5090 D首先从硬件层面就完成了从传统渲染时代到AI渲染时代的进化,突破了制造工艺、功率等硬件条件带来的性能升级瓶颈,为业界展示了GPU设计的新方向。可以毫不夸张地说,未来的GPU,完全拥抱AI是必然趋势,而在这方面,NVIDIA是领军者,拥有无可比拟的优势。
在此基础上,RTX 5090 D带来了一系列基于AI技术的新功能,将游戏流畅度和画质水平都提升到了新的高度,为玩家提供了更加极致的游戏体验。RTX 50系GPU还独享采用Transformer新模型的DLSS 4以及多帧生成技术,开启之后可以让游戏帧率暴增数倍,同时还拥有比上代CNN模型加持的DLSS 3更好的画质,这一点可以说是发烧级游戏玩家毫不犹豫升级的首要因素。
对于AI和生产力用户来讲,RTX 5090 D增加了对FP4精度的支持,能够提供更快的AI计算速度(也为AI渲染提供了强大的硬件基础),同时它还拥有当前最高规格的32GB/512bit/GDDR7显存配置,对于AIGC用户来讲无疑是当下最为高效的工具。此外,它还内置了3×第九代编码器和2×第六代解码器,新增支持4:2:2/10bit编解码,对于视频剪辑用户来说也堪称神兵利器。当然,在3D设计工具中,RTX 5090 D也提供了远超上代RTX 4090 D的性能。因此,综合来看,对于追求极致效率的设计师用户来讲,RTX 5090 D也是目前的顶配选择。
而技嘉RTX 5090 D超级雕(白)作为RTX 5090 D中的豪华旗舰,不但拥有600W的性能释放水平,还配备了强大的风之力散热系统,同时在外观颜值方面也达到了顶级旗舰水平,不愧为发烧级玩家和高端设计师用户首选的升级目标。
当然,对于追求性价比的玩家,也可以关注技嘉旗下的风魔系列RTX 5090 D显卡,例如RTX 5090 D风魔,首发价格16499元,它搭配了新一代仿生风扇,有效降低了风阻和噪声,还可将风压提升53.6%、风量提升12.5%。同时它还升级了导热凝胶,配备大型均热板和复合式热管、进气格栅等散热技术,性能输出强劲、而且耐用又超值。
来源:电脑报