极客级的DLSS 4游戏利器,索泰 GeForce RTX 5080 16GB SOLID OC评测

B站影视 2025-01-30 23:54 2

摘要:自图灵架构引入独立的RT核心和Tensor核心至今,英伟达已经将现代计算机图形技术推向了前所未有的高度。借助人工智能技术,英伟达独有的DLSS 4足以让GeForce RTX 50系显卡实现了数倍于原生帧率的增益,同时AI生成的帧对画质的还原愈发接近原生甚至好

前言

自图灵架构引入独立的RT核心和Tensor核心至今,英伟达已经将现代计算机图形技术推向了前所未有的高度。借助人工智能技术,英伟达独有的DLSS 4足以让GeForce RTX 50系显卡实现了数倍于原生帧率的增益,同时AI生成的帧对画质的还原愈发接近原生甚至好于原生。

当然,较早前评测的旗舰GeForce RTX 5090D已经展现出了不俗的性能表现,那么次旗舰RTX 5080是否也能延续这一奇迹呢?今天我们有幸收到了索泰 GeForce RTX 5080 16GB SOLID OC(以下简称为索泰RTX 5080 SOLID OC)。想必大家现在过年休假中,接下来我们快速浏览一下显卡的规格,然后直接进入游戏性能的讨论。

GeForce RTX 5080规格一览

作为首发阵容中的次旗舰产品,GeForce RTX 5080同样基于Blackwell架构打造,采用的是我们熟悉的TSMC 4N 定制工艺。其拥有84组SM单元,CUDA核心数达到10752,虽然与旗舰产品RTX 5090D在规格上存在一定差距,但其TGP功耗也相应地降低至360W。

与之一同亮相的是GDDR7显存,其有着更高的频率与更低的延迟设计,32Gbps显存等效频率为RTX 5080带来了远高于所有40系显卡的显存带宽。

如果你有认真对比过这个表格还会发现,即便是次旗舰定位的RTX 5080,其规格也远高过RTX 4080,再加上显存的升级以及DLSS4等新技术的加持,RTX 5080的代际提升是值得期待的。

游戏性能测试

既然如此,我们直奔主题看看索泰 GeForce RTX 5080 SOLID OC的游戏表现吧,我相信这也是大多数小伙伴点进这篇评测想最先知道的内容。开始分享数据前先介绍一下咱们的测试平台配置:我们采用了曾被誉为“让RTX 4090成为瓶颈”的当代游戏神U——AMD锐龙7 9800X3D,与之搭配的主板是微星高端主板MSI MPG X870E CARBON Wi-Fi暗黑,以及T-FORCE XTREEM ARGB 幻镜 DDR5-8000 C38 24GB*2,这套平台的性能理应能将索泰 RTX 5080 SOLID OC的游戏性能完全发挥出来。

先看看基础的游戏性能,我们测试了《光明记忆:无限》《古墓丽影:暗影》《战争机器5》等11款游戏,并比较索泰 GeForce RTX 5080 SOLID OC与RTX 4080 SUPER、RTX 4080在4k分辨率下最高/极致画质设置下的平均帧差异。

在不借助DLSS 4的状态下,实测索泰GeForce RTX 5080 SOLID OC比RTX 4080 SUPER强8%~25%,所有这些3A游戏的平均帧率均在60FPS以上。

我们将目光放在去年的大热游戏《黑神话:悟空》,这是不折不扣的硬件杀手,强如RTX 4080 SUPER的平均帧率仅为73FPS,帧率是相对挣扎的,而索泰RTX 5080 SOLID OC则跑出了87FPS,相对从容些。

类似情况的还有《巫师3:狂猎》次世代版,RTX 4080系列均跑出了100FPS的平均帧而新一代的平均帧则达到了136FPS,后者勉强喂饱4K@144显示器,实际游戏的体验也会更好。

当然了,如果我们搬出RTX 50系的撒手锏——DLSS 4,游戏帧率毫无疑问会暴涨,具体的提升幅度有多夸张?我们不妨对比索泰GeForce RTX 5080 SOLID OC以及RTX 4080分别借助DLSS 4以及DLSS 3时,两者的游戏帧率差异。

对比的对象是4款目前已支持DLSS 4的游戏,根据表格数据就能发现,有了DLSS 4加持后,索泰GeForce RTX 5080 SOLID OC的帧率几乎翻倍于DLSS 3加持的RTX 4080,这恐怖的游戏实力正是AI融入游戏技术的最佳范例。

先别急着惊叹,让我们聚焦于索泰GeForce RTX 5080 SOLID OC的游戏表现,我们对比了该卡在关闭DLSS、开启DLSS 3、开启DLSS 4三项设置的帧率变化,测试的游戏同样是4款已支持DLSS 4的游戏。我们实测的结果甚至比英伟达在CES 2025上展示的数据更夸张一些,开启DLSS 4后,《赛博朋克2077》的平均帧率暴涨至将近10倍,《星球大战:法外狂徒》的帧率同样极大幅度提升,这是何等的黑魔法。

具体到每一款游戏,先看看显卡杀手《赛博朋克2077》,自从这款游戏加入了路径追踪后,RTX 50系之前的所有显卡都很难说稳吃这款游戏,这个状况随着DLSS 4的出现迎来了转变,平均帧率上面已经提到了,我们看看1%帧,没开DLSS 4之前游戏基本处于不可玩的状态,开启后1%帧暴涨到88 FPS,已经足以流畅运行了,延迟更是降至48ms,稍稍高于DLSS 3,说明多帧生成相比帧生成,在控制延迟方面表现良好。

再看看《霍格沃兹之遗》,从DLSS OFF的1%LOW帧数据来看,索泰GeForce RTX 5080 SOLID OC即便不借助任何DLSS技术也能流畅游玩,有了DLSS 4更是如鱼得水。鉴于这款游戏的平均帧率有保障,追求画质的玩家甚至可以考虑将帧生成的数量调低,以获得更接近原生的游戏画面。

接着是《星球大战:法外狂徒》,这款新作同样是先进图形技术拉满,未开启DLSS的1%LOW帧数据就表现得淋漓尽致了,DLSS 4再次化腐朽为神奇,将一款画质拉满时完全无法游玩的游戏变得流畅运行,平均帧率甚至能喂饱4K@144的电竞显示器。

最后是喜闻乐见的《漫威争锋》,作为一款竞技类网游,如果帧率太低在排位赛是要吃大亏的,而这款游戏偏偏又很吃硬件配置,强如索泰GeForce RTX 5080 SOLID OC,在未开启DLSS时,1%LOW仅为64FPS,平均帧率仅为74FPS,说它是网游界的硬件杀手是一点不过分。好在现在有了DLSS 4,同一张卡的平均帧率突破了300FPS,这流畅度足以赢在起跑线。

总的来说,索泰GeForce RTX 5080 SOLID OC的游戏性能是符合预期的,在CUDA规模提升、RT Cores以及Tenor Cores均升级的三重增益下,硬件的游戏性能代际提升在20%左右,如果算上DLSS 4,这张卡的帧率数据则达到了“NEXT LEVEL”,考虑到它首发价相比RTX 4080还要低一些,属于“加量还降价”的范畴了。

让我们暂时忘掉RTX 5090D吧,即便是RTX 5080,目前地球上也难找到第三张在游戏性能方面能与它并驾齐驱的独立显卡,接下来我们再一起探究索泰 GeForce RTX 5080 SOLID OC带来了哪些独特的设计和理念。

外观篇:索泰 GeForce RTX 5080 SOLID OC 优雅永不过时

即便是用过多款索泰显卡的小伙伴估计都对SOLID感到陌生,毕竟这是索泰专为RTX 50系列而推出的新系列,索泰官方对这个卡的表述非常值得玩味——NO FRILLS,ALL ACTION。我个人理解,转化为中文大致意思就是“好钢用在刀刃上”。

索泰推出过不少包含大量复杂线条和华丽装饰的显卡,而这张索泰 RTX 5080 SOLID OC则是选择了用更简约和优雅的方式去营造高级感,显卡的散热器采用金属框架,整体为枪灰配色,中框和风扇LOGO等关键部位则使用香槟金点缀。这个型号还有个姊妹款名为索泰 GeForce RTX 5080 16GB SOLID,两者仅在Boost频率上有差别,外观与其他规格均一致。

在背板与散热器之间,索泰埋了一整块用于加强显卡结构的香槟金色合金中框。

散热器正面的金色索泰LOGO很难不给人留下深刻印象,这也是ICESTORM 3.0环刃风扇的点睛之笔。

近年英伟达的营销物料越来越喜欢用香槟金配色,位于散热器侧边的GEFORCE RTX标识被放置在香槟金底色之上,以此跟进英伟达的设计潮流。

翻到IO挡板能看到4个视频输出接口,包含3个DP以及1个HDMI,不过具体的接口型号却大有来头,采用了DP 2.1b以及HDMI 2.1b规格,这就意味着这张卡支持输出最高4k 480Hz和8K 165Hz的画面,目前支持这个规格的显示器都是极度前沿的旗舰产品,可以说这个显卡在视频规格上就颇具“战未来”的意味。

该卡采用12V-2x6供电接口,接口上方其实还设有一枚电源指示灯,接口旁边为双BIOS切换开关。

供电接口旁还有一个名为SPECTRA LINK的灯光同步接口,通过此接口与主板连接后,即可发挥索泰SPECTRA 2.0 RGB 灯光的全部潜力。

索泰 RTX 5080 SOLID OC的背板设计让人印象深刻,上面只有LOGO和镂空的散热孔,但是经过简单的金色线头勾勒,依然营造出气派氛围。

背板与散热鳍片之间的金属框架一直延伸到镂空处,刚好与背板的金线点缀组成了完整的装饰图案。

移到显卡的末端会发现,索泰依然留下了一些设计巧思,香槟金色框上印有ZOTAC GAMING的标识,栅格中央还留了一条小金线。

根据索泰官方对SOLID系列的定位,这是与X-GAMING平起平坐的高端系列,做工和用料理应值得信赖。

拆解:厚重扎实的散热结构与小巧PCB形成反差萌

所以接下来当然就是拆解环节了,一起看看这个卡是否内外兼修吧。还记得老黄在CES 2025上展示了RTX 5090/5090D的小巧PCB,作为次旗舰版本,索泰 RTX 5080 SOLID OC的PCB同样小巧,与三槽越肩式设计的散热造型形成了强烈反差。

可以看到RTX 5080的核心型号为GB203-400-A1,正如前文所述,其拥有10752组CUDA核心,稍多于RTX 4080 SUPER,通用的图形性能自然更强。

该卡采用了14+3相供电规格以及全贴片式的固态电感,还有大量的POS CAP对供电进行后端滤波,加上索泰一贯的严谨工作做派,玩家们可以放心让其长时间高负载稳定工作。

核心四周的8枚显存芯片十分醒目,结合索泰 RTX 5080 SOLID OC拥有16GB显存容量来看,单枚显存芯片的容量为2GB,高密度的显存芯片能有效降低PCB布线的复杂度,让PCB看上去更美观。

显存芯片来自三星,丝印编号为K4VAF325ZC-SC32,根据官方给出的参数,显存位宽为256bit,显存带宽为960GB/s,这一数据已经媲美RTX 4090了。

PCB上的元器件布局规整,对于索泰来说这是基本操作了。

PCB背面同样干净规整,尽管我们常说这些都是大厂的基操,其实这就是高度自动化和机械化的结果。

金属背板上有设置绝缘层,完全杜绝了PCB元器件与背板接触引起的短路可能;

接下来就是这个卡的精华所在,密集散热鳍片阵列不仅增加散热面积,不规则的鳍片犹如工艺品,提升了观感。

散热器与显卡核心接触的地方用了巨型VC均热板,接触面做了镀镍和镜面处理,旨在尽量提升传热效率。

眼尖的小伙伴可能还会发现,供电模块的散热垫位于中框,相当于将供电模组的散热介质与核心&显存的散热介质分开,提升整个散热器的散热效率。

导热管同样做了镀镍处理。

以上就是索泰RTX 5080 SOLID OC的拆解的情况,索泰的顶级显卡在堆料方面自不用担心,倒是拆开才会发现,这张卡采用的大量金属元素不只是为了装饰点缀服务,还藏了不少协助散热的小巧思。

FIRESTORM 超频软件:功能更强更人性化

提起索泰显卡自然难免要提及他们家的Firestorm超频软件,现在它已经被升级到5.0版本,我们体验了一下,现在通过Firestorm 5.0软件,我们既能监控到显卡的概况、设置显卡灯效。

也能通过图形化的界面对显卡核心频率、电压等进行微调。

相应地风扇转速也可以细节调整,喜欢静音的小伙伴可以调低风扇转速,反之可以让风扇更暴力工作以获得更低的核心温度。

对于一款面向极客玩家的高端产品,在做好了显卡品质做工同时,可供玩家折腾的软件更是加分项,它可以为玩家提供一定的情绪价值,从软硬件的用心程度可见,索泰相当重视RTX 50系新品。

基准性能测试——理论性能测试

接下来跟大伙分享该卡的理论性能详解,理论性能咱们主要参考3DMark基准。先来看3DMark的情况,在Fire Strike的基准测试中,索泰GeForce RTX 5080 SOLID OC领先RTX 4080 SUPER的幅度在23%上下;到了DX12的Time Spy测试中,这个幅度差别在16%左右;在对显卡压力最高的Speed Way基准中,新卡领先幅度又回到了21.4%。

3DMark已经第一时间加入了DLSS 4的对比测试内容,从理论性能角度来看,DLSS 4所带来的提升十分明显,4K分辨率下,DLSS 4相对DLSS 3的帧率进一步暴涨,相比原生帧率提升了6倍之多,8K分辨率的情况就更夸张了,以至于我们还觉得难以置信,8K样例的平均帧率高达156FPS,这只能用性能炸裂来形容。

如果只看领先幅度的话,16%~23%的幅度可能会让小伙伴感觉疑惑,但考虑到两者的CUDA规模差距只有5%(10752 VS 10240),说明架构的升级带来超越规模变化的增益,而且在基准之外,RTX 50系还带来了大量基准难以体现的升级,咱们接着详聊。

基准性能测试——AI性能测试

我们已经步入了AI PC时代,在CES 2025上英伟达也提到了AI如何塑造RTX 50系列。这代新品加入了对FP4精度模型的支持,根据英伟达的官方说法,有了这项新特性,RTX 50系相比RTX 40系的效率更高,显存占用还更低了。

我们用FLUX.1 AI Image Generation Demo For NVIDIA基准软件验证,实测结果非常清晰地展示了FP4的魅力。在FP8精度下,三张显卡的性能接近,索泰RTX 5080 SOLID OC稍强。到了FP4精度,它们的性能差别肉眼可见,RTX 4080 SUPER需要将近半分钟才能生成一张图,而索泰RTX 5080 SOLID OC仅需10秒。

再来看另一个AI基准——AI Text Generation Benchmark,这是一个集合了PHI 3.5、LLAMA 3.1、LLAMA 2等多种大语言模型的基准测试软件,可以很好地评估和对比不同显卡处理不同模型的能力。从实测结果来看,索泰GeForce RTX 5080 SOLID OC的表现可圈可点,除了PHI 3.5外,其他基准对比RTX 4080 SUPER均具有20%左右的领先,相信随着以后FP4精度模型的推广和普及,RTX 50系的优势会越来越明显。

再来看看MLPerf Client v0.5,这项AI基准更倾向于实际应用场景,比如针对创意写作、长文摘要等场景的测试,实测索泰GeForce RTX 5080 SOLID OC的领先幅度依然较为明显。

基准性能测试——创造力性能测试

看完以上几个基准,相信大伙对索泰GeForce RTX 5080 SOLID OC的AI性能已经有一定的了解,对于将AI作为常驻工具的创作者或者设计师来说,RTX 50系列在创造力方面的提升同样明显,首先不得不提到的是第九代NVENC,即新一代的英伟达编码器,它可以输出H.264/H.265 4:2:2编码的视频,而索泰GeForce RTX 5080 SOLID OC内置了双NVENC,效率自然更高。

我们使用DaVinci Resolve 19.1.2将一条8K Prores422HQ的无损素材编码分别导出为H.264、H.265、AV1等版本,对比不同版本的导出时间差异。

实测结果着实让人印象深刻,索泰GeForce RTX 5080 SOLID OC导出这三条不同格式的4K视频用时几乎是RTX 4080 SUPER的一半。而且正如前面所言,它还支持编码4:2:2色度取样的视频,实测结果也十分高效。更重要的是,有了这项新特性,索泰RTX 5080 SOLID OC不但能为创作者节省大量时间,更能帮助创作者轻松输出更高清无损的视频样例,这是以往40系显卡都无法做到的。

RTX 50系的解码器也升级到第六代NVDEC,支持硬件解码4:2:2色度取样的视频,索泰RTX 5080 SOLID OC更是内置了2个第六代NVDEC,相比上代同级产品翻倍,在实时编辑高码率高清无损素材时,流畅的预览和剪辑体验用基准测试数据难以体现,却又实打实提升创作者的生产力。

再来看看更理性的Pugetbench创作力跑分基准测试,在几款Adobe基准中索泰RTX 5080 SOLID OC的代际提升幅度基本与CUDA规模提升幅度吻合,这显然是早期驱动还在适配中。在达芬奇软件的测试基准中,索泰RTX 5080 SOLID OC的代际提升幅度来到了15%左右,相信未来经过打磨的驱动版本上线后,代际提升还会更明显。

接着是3D渲染软件的性能评估,我们选择了Blender与V-Ray的基准测试。实测索泰GeForce RTX 5080 SOLID OC在这几个3D渲染基准中平均领先RTX 4080 SUPER大约17%,同样是考虑到两者的CUDA规模差距,个别项目的提升幅度基本合理。

最后是喜闻乐见的工业领域专用软件基准SPEC2020,这项基准测试涵盖了市面上多个工业级生产力软件,能一定程度上反映出显卡的工业生产水平。实测除了极个别软件外,索泰GeForce RTX 5080 SOLID OC都有待机提升,而且提升幅度在6%到27%之间,日常工作有使用到这些软件的小伙伴可以酌情参考升级显卡。

总结:实用主义的极客之选

以上就是本次评测的全部内容,在我们的传统印象中,非公版高端显卡就要够炫够酷,一定要有浮夸的灯光或者复杂的线条,以此营造高端的氛围来抓住玩家眼球,索泰GeForce RTX 5080 SOLID则一改“惯性”,选择了不怒自威的视觉设计。

事实上它的性能确实配得上这种设计语言,即便不借助DLSS4的多帧生成技术,单凭现有的帧率优化技术,索泰RTX 5080 SOLID也能轻松玩转时下绝大多数3A游戏大作,倘若有了多帧生成技术加持,可以4K120玩转各类硬件杀手不在话下。

至于全球火热的AI PC话题,RTX 50系全家族的AI算力均得到了重大升级,原生支持FP4格式让它可以在该类型的AI实例中跑出远胜于历代旗舰显卡的AI算力,在各类AI应用中都可以跑出更高效的表现。

不仅如此,对于视频创作者/视频主播来说,这张卡的编解码能力同样生产力拉满,从实测的数据来看,新一代的双NVENC编码器导出AV1编码的8K30帧高码率视频时,效率媲美甚至超越RTX 4090,而首次出现在X080系列的双NVDEC解码器的性能同样值得期待,它在实时剪辑时提供了更流畅更清晰的视频预览和拖放等体验,这些是难以用基准跑充分体现,却能实际感受到的提升之处。

更重要的是,如此强大的显卡,价格却比RTX 5090D便宜一大截,考虑到4k120的游戏性能已经足以喂饱目前主流的4K游戏显示,可以说这个卡在游戏领域已经站上了新的顶峰,在AI运算以及创作力方面的表现同样可圈可点,对于绝大多数高端玩家和创作者来说,索泰 RTX 5080 SOLID OC已能堪大用,如果你的预算在万元左右,考虑到这个卡是除RTX 5090/5090D外的顶级选择,那不妨关注一下。

GeForce RTX 50系列亮点技术盘点

测试结束,最后给大家介绍一下这一代显卡的架构亮点以及部分技术解析。

Blackwell架构的改进

GeForce RTX 50系显卡采用了此前NVIDIA在AI领域推出的Blackwell架构,以大卫·布莱克威尔命名,其是一名受人尊敬的数学家和统计学家,在博弈论和统计学领域留下了不可磨灭的贡献,NVIDIA用其名字命名这一架构反映了新平台的开创性和先进的计算能力。Blackwell可以说是NVIDIA近年来更新幅度最大的GPU架构了,相比起之前的架构来说,划时代地引入了神经网络着色器,力图为游戏开创先进、高效更有逼真的渲染方式,带给玩家全新的游戏体验。

相比前代Ada架构,Blackwell的升级聚焦于四大方向:分别是AI算力的爆发、光线追踪技术的革新、显存能效的提升以及划时代的神经网络渲染。

第五代Tensor核心

其中AI算力的爆发就不得不提到Blackwell架构上的第五代Tensor核心,新一代Tensor Core添加了对FP4浮点运算精度的支持。FP4是一种较低的量化方法,类似于文件压缩,可以减小模型推理过程中数据存储和计算量大小,提高计算效率,降低该过程对显存的要求。与大多数模型默认使用的FP16相比,FP4使用的显存不到其一半,并使GeForce RTX 50系列GPU的性能相比上一代提升高达2倍。

第四代RT核心

而光线追踪技术的革新则仰赖于第四代RT核心的加持,相较于第三代RT核心来说,Blackwell架构的第四代RT核心主要提升了检测光线、路径与三角形相交的效能,过往在检测时往往只能检测单个三角形,一旦场景复杂,检测能力不足就容易导致渲染出错等问题,而现在检测能够以簇集方式进行,检测效率更高。同时还有三角形簇集解压缩引擎加持,其新增了Linear-swept Spheres(LSS)功能,可以减少渲染毛发所需的几何图形数量,并使用球体代替三角形以获得更准确的毛发形状拟合,能够让显卡发挥更好的性能但只消耗较小的显存占用。

综合来看,Blackwell架构的光线追踪多边形相交效率是上一代Ada架构的2倍,是Turing架构的8倍,同时还可以节省25%的显存使用率。

第四代RT核心的改进主要是为实现更好的光追效果。其中有两项新技术能够受益,第一项是RTX Mega Geometry技术。随着光线追踪游戏场景的几何复杂性不断增加,游戏画面中几何图形的计算量也呈现出快速增长的趋势。而RTX Mega Geometry技术能够加速构建边界体积层次结构(BVH),使得在实时渲染中可以处理多达100倍的三角形数量。

该技术的出现,也使得开发者能够在游戏场景中使用更复杂的几何图形,而不会影响游戏帧率。过去需要一个个算BVH,现在RTX Mega Geometry能够智能地在GPU上批量更新三角形簇,减少了CPU的负担,既保证了性能,也兼顾了图像质量。相信随着这些技术的不断发展和应用,未来的游戏将能够呈现出更加逼真和细腻的视觉效果,同时保持高效的性能表现。

另外一个能够受益的技术则是Curve Primitive,方便光追在曲面中的应用,例如一位男士的头发可能需要多达400万个三角形,再加上光线追踪技术,画面所需要的运算负载极大。NVIDIA则通过第四代RT核心中的Linear- Swept Spheres(线性扫描球体)技术有效减少了渲染头发所需的几何体数量,以球形代替多边形,更贴合头发的形状,从而将内存占用量大幅缩减至三分之一,并进一步提升了实际帧数,让头发的渲染效果更加自然流畅。

GDDR7显存

第三点改变则是显存效率的提升,Blackwell架构中还首次加入了对GDDR7显存的支持,此前GDDR6显存的信号编码为NRZ/PAM2,而RTX 40系上的GDDR6X则是PAM4编码。最新的GDDR7显存,信号编码改成了PAM3,NRZ/PAM2每周期提供1位的数据传输,PAM4每周期提供2位的数据传输,而PAM3每两个周期的数据传输为3位。说人话就是,新的编码机制可以使杂讯失真比减小,信号品质更清晰,同时还能带来更高的显存运行频率以及更低的电压,根据NVIDIA的介绍,使用GDDR7显存后,数据传输速率可达GDDR6时的2倍,并且功耗接近GDDR6的一半,经典加量还减价。

神经网络着色器

接着我们再细说一下这一代架构的最大变化,NVIDIA这次 Blackwell架构的SM单元直接采纳了神经网络着色器。相比较于之前的可编程着色、CUDA统一着色、通用计算着色来说,其最大的变化就是引入了AI,AI将会彻底改变GPU的着色方式。

在Blackwell架构中,NVIDIA 进一步拓展了神经网络渲染的范畴,引入了诸多创新元素,包括神经网络纹理压缩(Neural Textures)、神经网络材质(Neural Materials)、神经网络体积(Neural Volumes)、神经网络辐射场(Neural Radiance Fields)以及神经网络辐射缓存(Neural Radiance Cache)等,这些元素共同构成了神经网络渲染中神经网络着色的重要呈现方式。

这里举个例子让大家能够更简单地理解神经网络渲染,过去复杂的物品或大量异材质的贴图往往会占用相当大的内存空间,如果叠加光追的话,计算量将会更大。然而,得益于神经网络渲染技术中的神经网络材质功能,这一问题得到了显著改善。开发者可以先在离线渲染出物品的光照数据,然后再用这些数据训练一个小的AI模型,游戏运行时只要实时调用这个AI模型当场推理就好了,这样就能还原出想要的光照效果了,再配合神经网络纹理压缩技术,就能显著降低实际生成的材质数据量,从而在占用更少显示内存的同时,实现了细节更丰富的材质表现,达到了实时生成如电影般细腻素材的效果。

目前神经网络渲染技术已经得到了微软的大力支持,未来也将会加入DirectX中,玩家能够体验到更真实的游戏世界。

而在硬件层面,由于神经网络渲染的加入,Blackwell架构的SM单元相较于RTX 40系的Ada架构还是有不小变化的,Ada架构内的SM内,SM单元会拆分成一半的CUDA专门用于处理FP 32(单精度浮点数),另一半则依需求动态调整去处理FP32和INT32(32位整数)。而在Blackwell架构上,SM单元则改成了CUDA核心可以完全依需求动态处理FP32和INT32的形式。

另外一个改进是,过往的着色工作往往只有SM单元的Shader在处理,而Blackwell架构上引入了神经网络渲染以后,使得Blackwell架构上的第五代Tensor核心也能共同分担着色工作,大大提高了着色效率。

这样改进的好处是,Blackwell架构能够进一步针对神经网络渲染工作进行排序,即把传统的着色工作分配给Shader,而需要动用神经网络渲染的工作负载则可以给到Tensor核心上,两种核心同时运用,效率最高可以提升2倍之多。并且得益于Tensor核心也加入了可编程渲染管线,现在开发者或API也能更好地调用Tensor核心,未来游戏内我们能见到的AI技术势必越来越多。

先进的AI管理处理器

此外,AI的应用也越来越多,不仅游戏中应用AI技术,现在连可编程渲染的过程里也引入了AI,因此如何去分配显卡内部多样化工作就成了一个问题。如过往显卡在开启DLSS玩游戏时,其中应用到的语言模型和游戏引擎需要同时与GPU的不同核心交互,生成游戏帧,但是往往很难做到每一帧都有一致的生成时间,抑或是游戏AI对话的响应不够及时,这些情况都会造成游戏体验不友好。

而Blackwell架构为了解决这一问题,引入了AI管理处理器(AMP)。它能够实时调度资源,确保在神经网络渲染、帧生成和 AI 驱动的游戏交互中实现智能化的任务分配。这种设计不仅带来了更高效的性能输出,还让显卡在游戏渲染和 AI 运算之间实现了绝佳的平衡,确保帧的间隔均匀,对话类型的AI能够及时响应,玩家的游戏体验一致性能够比较好地保障。

技术解析:DLSS 4

介绍完NVIDIA引以为傲的RTX神经网络渲染,再让我们看看应用RTX神经网络渲染的最好例子——DLSS。它不仅能提高帧率,还可同时提供清晰锐利的高质量图像,效果与原生分辨率渲染媲美。目前支持DLSS的游戏和应用已经超过540款,而玩家使用DLSS的时间更是长达3亿个小时,可以说DLSS给玩家带来了划时代的游戏体验。

目前DLSS已经迭代至DLSS 4,DLSS 4进一步整合了多帧生成 (Multi Frame Generation)、光线重建 (Ray Reconstruction)和超级分辨率 (Super Resolution)等多种先进技术,通过 AI 模型对帧间信息进行深度分析与融合,最终呈现出更具沉浸感与真实感的画面。

什么是DLSS 多帧生成?

在 DLSS 3 帧生成技术中,AI 模型使用运动向量和深度等游戏数据以及来自 GeForce RTX 40 系列光流加速器的光流场来生成一个额外的帧。由于每生成一个新的帧都需要光流加速器和 AI 模型参与,因此生成多帧的开销相当高昂,而过高的性能开销会带来瓶颈,导致帧率提升受限。

而这次DLSS 4全新升级,引入了多帧生成技术,它可以利用 AI 为每个渲染帧额外生成多达3帧!相比传统渲染的方式,能够最多实现8倍的性能提升。并且每次渲染额外帧只需要AI模型执行一次,就能输出三帧画面,因此无论是对性能、显存的开销还是延迟都比之前要好了许多。

DLSS多帧生成技术还会与 DLSS 光线重建和DLSS超分辨率等其他技术协同工作。光线重建技术可以根据生成的多帧更好地处理光线追踪效果,使光线效果更加逼真和自然;超分辨率技术则可以在多帧生成的基础上,进一步提升画面的分辨率和细节,确保在高帧率下画面质量也能保持较高水平。

另外,由于多帧生成技术,输出的帧多了,要给每一帧都安排一个合理的间隔刷新才能让观感更好。因此NVIDIA还引入了专属的Flip Metering来代替CPU Pacing,它将帧节奏逻辑转移到显示引擎,让GPU能够更精确地管理显示时间,尽可能地将每一帧画面的生成时间保持一致,从而提高整体游戏视觉的流畅感。不过由于Flip Metering是硬件级的控制器,因此DLSS 4的多帧生成目前只有RTX 50系显卡支持。

全新Transformer模型架构

DLSS 4 还引入了图形行业首个 Transformer 模型实时应用。熟悉AI的应该对它很熟悉了,它在AI生成领域已经应用多年了。基于Transformer架构的 DLSS 超分辨率和光线重建模型,相比之前DLSS使用的卷积神经网络(CNN)模型来说,具备2倍的参数量和4倍的计算量。在游戏场景中,能够提供更高的稳定性、更少的拖影、更高的细节和更强的抗锯齿能力,使画面更加清晰、流畅和逼真。

不过虽然DLSS 4的多帧生成功能是RTX 50系显卡的独占功能,但新的Transformer模型将适用于所有GeForce RTX显卡。

Transformer 模型的最大优势在于其强大的全局分析能力。传统的卷积神经网络(CNN)在单帧优化上表现出色,但对动态场景中的复杂变化(如快速移动物体或光线变化)处理有限。而 Transformer 能够捕捉多帧之间的时间关系和全局场景信息,从而更加精准地还原细节,进一步减少“拖影”现象。

显存占用优化

同时得益于多帧生成功能是利用效率极高的AI模型,相较于上一代的硬件光流器进行帧生成的方式,能够显著降低生成额外帧的计算开销。反映在显示中就是能够节约显存占用,例如在《战锤 40 K:暗潮 》中,以4K最高设置游玩,DLSS 4不仅可将帧率再提升10%,还能将内存占用量减少400 MB。

超过75款游戏和应用将支持DLSS 4

超过75款游戏和应用将在GeForce RTX 50系列开售时支持DLSS 4的全新DLSS多帧生成功能,包括《赛博朋克2077》《战神:诸神黄昏》《心灵杀手2》《霍格沃兹之遗》等,《黑神话:悟空》也将于今年晚些时候升级支持 DLSS 4的多帧生成。随着时间的推移,支持DLSS 4的游戏和应用数量将不断增加。

对于尚未完成更新至最新DLSS模型和功能的游戏,NVIDIA App将通过全新DLSS优设功能实现相关支持。说人话就是,如果你想玩的游戏还没有提供DLSS,你可以通过NVIDIA App进行设置,强开DLSS技术,同时随着Game Ready驱动的不断更新,DLSS相关的AI模型也会封装在驱动之中,随着模型的不断迭代,画质与性能也会越来越好,简单地说DLSS越用越好用!

不过DLSS 4技术中的多帧生成功能目前仅支持最新的GeForce RTX 50系列显卡。究其原因还是因为多帧生成需要Blackwell架构内置的Flip Metering硬件及其他支持。因此想要体验最新的黑科技,还需要玩家更新至GeForce RTX 50系列显卡才行。

技术解析:NVIDIA Reflex 2

另外,值得一提的是,与DLSS 4一起到来的还有全新的NVIDIA Reflex 2技术。延迟一直是电竞中绕不开的话题,玩家的每个动作都会经过复杂的计算,再在屏幕上渲染,其中的每一步都会增加延迟。虽然延迟往往只有几十毫秒,但是你却能明显地感觉到游戏的不流畅、卡顿。

为了尽可能地降低延迟所带来的不良游戏体验,NVIDIA发布了NVIDIA Reflex技术,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。目前NVIDIA Reflex已集成到超过100款游戏中,可以将PC延迟降低50%。

而GeForce RTX 50系显卡再度升级,带来了NVIDIA Reflex 2技术。它结合了Reflex低延迟模式与Frame Warp技术。它可以把最新的鼠标输入指令同步给渲染帧,及时更新渲染的游戏帧并在渲染帧被发送到显示器之前获取最新的鼠标信息,通过刷新渲染的游戏帧以进一步减少延迟,将PC延迟进一步降低多达75%。

另外,Frame Warp的加入,能够进一步将延迟降低。当一个帧被GPU渲染时,CPU会根据最新鼠标或手柄输入计算工作流中下一帧的视角位置。Frame Warp从CPU采样新的视角位置,然后将GPU刚才渲染的帧扭转到最新的视角位置。在渲染帧被发送到显示器之前,在尽可能最短的时间进行扭转操作,确保屏幕上反映最新鼠标输入。

而当Frame Warp转移游戏像素时,图像中可能会产生缝隙撕裂、镜头位置的变化会让游戏场景中显示新的部分。NVIDIA则开发了一种优化了延迟的预测渲染算法,该算法使用来自先前帧的视角、颜色和深度数据,对这些撕裂空白的像素进行准确的图像修复。玩家可以通过更新的视角看到没有撕裂的渲染帧,并降低了改变游戏内视角位置而产生的延迟。说人话就是现在NVIDIA Reflex 2还可以根据之前帧的信息去填补一些空白的像素,有种无中生有但你又看不出来的感觉。

首发支持NVIDIA Reflex 2技术的游戏是《THE FINALS》以及《无畏契约》,该技术也将在 GeForce RTX 50 系列 GPU 上首次亮相,当然后续也会逐步开放给更多的GeForce RTX系列显卡,老玩家也可以体验到最新的技术。

来源:太平洋电脑网

相关推荐