在成绩解禁之前:RTX Blackwell架构特性与新技术前瞻

B站影视 2025-01-23 23:23 2

摘要:作为PC玩家最瞩目的产品之一,RTX 5090 D将在明天开放性能评测,不出大家所料,在人工智能横行的今天,新显卡提升重点也是放在了AI上,像DLSS 4,Reflex 2以及各种RTX特性,很多都是基于AI的技术。今天我们就先给大家提前聊一下RTX 50系的

作为PC玩家最瞩目的产品之一,RTX 5090 D将在明天开放性能评测,不出大家所料,在人工智能横行的今天,新显卡提升重点也是放在了AI上,像DLSS 4,Reflex 2以及各种RTX特性,很多都是基于AI的技术。今天我们就先给大家提前聊一下RTX 50系的架构、参数和即将能体验到的新技术,为首发评测打个底。

桌面平台上,这次CES公布的新品从90到70共有5款,先来看看完整的Blackwell GB202芯片。和AD102一样,这一代的核心还是GPC-TPC-SM层级设计,不过TPC段从Ada Lovelace的6组扩展到了8组,算下来规模可以说是暴涨了。

SM段的变化也相当大,首先,现在所有的CUDA核心都能执行FP32/INT32运算了。不过每一个时钟周期内它们只能二选一执行。 Tensor Core和RT Core也获得了升级,以应对DLSS 4和神经网络渲染、Mega Geometry等新技术的需求。值得注意的是,在最上面的GIGA Thread engine旁边这次并列了一个AI调度器(AI Management Process),通俗点来讲,这个东西就是用来负责调度AI和图形负载,例如能让游戏里的AI NPC说话响应更及时,还能保证游戏的流畅。

与过往一样,即便是顶级型号也没有启用全部的核心,RTX 5090是砍掉了1组GPC,32MB的L2缓存以及1+2的NVENC编解码器规格,大概是完整版的88.5%。

回到RTX 5090 D身上,它在国内的MSRP为¥16499元,将于1月30号大年初二正式上市。


索泰GEFORCE RTX 5090 D 32GB SOLID OC

从参数上看,这次新卡同样采用了定制的台积电4N(5nm)工艺,整体规模相较RTX 4090有着不错的提升,现在它搭载的32GB GDDR7显存,位宽为512bit,速率达到了恐怖的1792GB/s,远远拉开与上代卡皇的距离。在制程不变的情况下,更强的规模也代表了更夸张的功耗,RTX 5090/D的TGP为575W,比4090高了整整27%,实际的烤机体验则更会令大家的肾上腺素飙升起来。

按照官方说的,5090D和5090的唯一区别就是AI性能,NVIDIA做了相关的限制,从RTX 5090的3352 AI TOPS降至RTX 5090 D的2375 AI TOPS,降幅约为29%左右,其余规格不变。

除此之外,NVIDIA还为未来的Blackwell架构用户提供了不少新东西,最重要的就莫过于神经渲染和DLSS 4了。

模型从CNN升级到Transformer

从2018年的RTX 20系显卡开始,NVIDIA为了解决光追游戏带来的性能难题,推出了一套基于Tensor Core驱动的神经渲染技术(DLSS)。 随着显卡的更新,DLSS版本也在迭代,到目前是已经包含了超分辨率、深度学习抗锯齿、帧生成以及光线重建等技术。

在这次发布的DLSS 4里,NVIDIA是为大家引入了全新Transformer AI模型以及多帧生成的。以前,DLSS使用的卷积神经网络(CNN), 经过六年的持续训练改进,已经差不多到了瓶颈,可以看到,原版的《赛博朋克2077》里,经常会看到显示屏的鬼影、材质模糊等状况,对于注重细节的玩家来说,体验还不够完美。 新的DLSS 4则更新了视觉Transformer模型 ,引入了注意力机制去评估整个帧中每个像素的相对重要性,并且跨越多个帧,采用比CNN模型多达2倍的参数来学习并重建场景。除了能提升图像质量外,在复杂的光照条件下,新AI模型能提供更强的稳定性,画面重影和闪烁都会有所减少。

最高4倍多帧生成

多帧生成同样是RTX 50系的劲爆点之一,NVIDIA已经不满足于DLSS 3里的插一帧,直接给你上到插3帧。这次NVIDIA不仅升级了帧生成模型本身,还通过一个非常高效的AI模型替换掉原来的光流加速器来加速光流场的生成。

不过NVIDIA表示,由于DLSS 4全开需要多个模型协同工作,更强的Tensor Core是必不可少的,所以多帧生成目前是RTX 50系独占的功能。当然,即便是单帧生成的RTX 40系列也有模型上的更新。这点倒是跟以前不一样。由于插3帧的情况比插1帧复杂得多,为了解决帧同步逻辑问题,新的Blackwell架构GPU还引入了硬件级Flip Metering功能,将帧率逻辑转移到显示引擎中,使得GPU能够更精确地管理显示时间。

NVIDIA Reflex 2带来Frame Warp技术

为了解决多帧渲染带来的延迟问题,这次NVIDIA也把Reflex升级到第二代,主要就是新增了Frame Warp这个技术。

大家平时打游戏的时候,每个动作都会经过复杂的计算,然后在屏幕上显示,其中的每一步都会增加延迟。键鼠的输入是先传输给游戏,由CPU进行计算其在游戏中的效果。操作的结果被置于渲染队列中,队列被传输给GPU进行渲染,最后输出到显示器。整个过程大概需要几十毫秒,但卡顿和其他滞后情况会增加延迟。NVIDIA的Reflex 1是通过控制CPU和GPU沟通的节奏来达到低延迟的,而Reflex 2首次采用了Frame Warp技术,当一个帧被GPU渲染时,CPU会根据最新鼠标或手柄输入计算未来帧的视角位置。

Frame Warp会获取新的鼠标位置,然后将GPU刚才渲染的帧扭转到最新的视角位置。在渲染帧被发送到显示器之前,在尽可能最新的时间进行扭转操作,确保屏幕上反映最新鼠标输入。

当在Frame Warp技术转移游戏像素时,图像中会产生撕裂开的空白像素,镜头位置的变化会让游戏场景中显示之前没有渲染的新像素。NVIDIA开发了一种优化了延迟的预测渲染算法,使用来自先前帧的视角、颜色和深度数据,对这些空白像素进行准确的图像修复。玩家可以通过更新的视角看到没有撕裂的渲染帧,并降低了改变游戏内视角位置而产生的延迟。虽然听上去好像有一大块画面是凭空生成的,但从NVIDIA放出的视频看来,受到影响的地方其实很小。

神经网络渲染

最后就是神经网络渲染,这是NVID IA这次重点宣传的技术。简单来说,神经网络着色器代替复杂代码,实现更加高效的材质渲染。而纹理压缩技术能让高分辨率纹理的处理更加高效,保持清晰度的同时显著优化性能。神经辐射度缓存则可以通过AI预测光线反射效果,减少显卡压力,还能提升间接照明质量,让游戏画面更加真实自然。

最后是两个对游戏内角色比较重要的技术:RTX皮肤可以让角色皮肤展现真实的光影互动,RTX神经网络面部通过AI生成更生动的表情,解决“恐怖谷”问题。

总的来说,RTX Blackwell架构这次新增的技术都是在以前的基础上继续增强,如果你是可以适应以前的DLSS以及帧生成,相信DLSS 4的体验一定会让你满意的,在明天我们将会为大家带来RTX 5090 D的首发评测,主要针对是显卡的实际跑分、功耗表现以及DLSS画面对比等内容。也有更加详细的架构解析,请大家保持关注!

来源:超能网

相关推荐