摘要:GPU在当下愈发承担了越来越重要的作用,既要流畅运行游戏,又要玩转端侧AI大模型,显存大小变得更为至关重要,因此在4000元以下的价位段中,AMD、Intel都给足16GB的产品型号可供选择,NVIDIA GeForce RTX作为市场上绝对的主流,势必在这个
GPU在当下愈发承担了越来越重要的作用,既要流畅运行游戏,又要玩转端侧AI大模型,显存大小变得更为至关重要,因此在4000元以下的价位段中,AMD、Intel都给足16GB的产品型号可供选择,NVIDIA GeForce RTX作为市场上绝对的主流,势必在这个价位段拿出竞争力的产品,现在这个重任落在了GeForce RTX 5060 Ti 16GB的身上。
纵观近期的Steam的GPU近期的硬件统计,前十二名均被NVIDIA GPU占据,常年霸榜的型号包括RTX 4060和RTX 3060以及其Ti版本。比起旗舰级的GeForce RTX 5090D,GeForce RTX 5060 Ti 16GB对众多游戏玩家和主流用户而言自然更有意义,特别是象征着这个段位下规格最高的Ti版本,也预示着未来一段时间主流游戏体验的天花板在哪里。
GeForce RTX 5060 Ti 16GB在这个时间点发布也愈发关键,在国补、618促销的契机推动下,它能否能像它的前辈一样短时间内一战成名,游戏与AI的表现能否达到令人满意的程度,GeForce RTX 5060 Ti 16GB首发评测就此奉上。
由于GeForce RTX 5060 Ti 16GB没有推出Founders Edition版本,这次让我们用上MSI微星GeForce RTX 5060 Ti 16G INSPIRE 2X硬派师作为参考,挖掘GeForce RTX 5060 Ti 16GB的真实实力。
新晋的GB206
从硬件信息来看,GeForce RTX 5060 Ti 16GB使用了全新的Blackwell GB206打造,芯片型号GB206-300-A1,包含219亿个晶体管,芯片面积181mm²。
GB206与前段评测的GB202、GB203、GB205有些许不同,同样基于Blackwell 2.0设计,包含3个GPC(Graphics Processing Clusters,图形处理集群),但每个GPC所包含的TPC(Texture Processing Clusters,纹理处理集群)数量由8个变成了6个,其他结构不变。
GPC是所有Blackwell GB20x GPU最主要运算单位,每个关键图形处理单元都会摆放在GPC中,每个GPC包括一个专用的光栅引擎(Raster Engine),2组ROP集群(Raster Operations,光栅操作),每个光栅操作分区包括8个独立的ROP单元,8个TPC(Texture Processing Clusters,纹理处理集群)。
每个TPC包含1个PolyMorph引擎和2个SM(Streaming Multiprocessors,流式多处理器)。
PolyMorph引擎主要用于处理图形和计算任务中的几何变换和曲面细分,在处理复杂几何图形的时候,可以获得更高效的多任务能力。
SM则是NVIDIA GPU架构中的核心部件,也是GPU可以完成大规模并行任务的关键,比如CUDA Core,Tensor Core,RT Core都包含其中。每个SM包括128个CUDA Core,1个第四代RT Core,4个第五代Tensor Core,4个纹理单元(Texture Units),1个512KB寄存器文件,128KB L1共享缓存,缓存可以根据图形和计算工作负载需求进行重新配置。
此外,每个SM包含2个FP64核心。FP64 TFLOP速率是FP32 TFLOP速率的1/64,对于消费端而言使用频率不高,但可以保证FP64代码可以被正确的执行。对应的,Tensor Core也包含了少量的FP64 Tensor来确保程序的正确执行。
在这样的结构下,GeForce RTX 5060 Ti 16GB的GB206-300-A1就很好理解了。由于GB206-300-A1使用了完整的GB206,GeForce RTX 5060 Ti 16GB展现出来的参数即为这块芯片的完整体,即:
3个GPC
18个TPC(每个GPC包含6个TPC x 3个GPC)
36组SM(每个TPC包含2组SM x 18个TPC)
4608个CUDA Core(每组SM包含128个CUDA Core x 36组SM)
4608KB L1共享缓存(每组SM包含128KB L1共享缓存 x 36组SM)
48个ROP(每个GPC包含2组ROP集群,每个集群包含8个独立ROP单元,3 x 2 x 8)
36个第四代RT Core(与SM数量相同)
144个第五代Tensor Core (每组SM包含4个 x 36组SM)
144个纹理单元(每组SM包含4个 x 36组SM)
了解Blackwell架构内集群关系之后,就能很好的推导出不同核心数量的关系。
GB206配备了4个32-bit内存控制器,构成了1组128-bit内存接口,无论是16GB GDDR7版本还是8GB GDDR7版本,显卡内存位宽均为128-bit,显存总带宽达到448 GB/s。另外GeForce RTX 5060 Ti 16GB基础频率为2407 MHz,Boost频率来到2572 MHz,TDP功耗180W。
在编解码器方面,GB206包含了1个第九代NVENC编码器和1个第六代NVDEC解码器,这也给GeForce RTX 5060 Ti 16GB在主流平台上实现一定程度多媒体高效编辑提供了基础。
最后放出大致的对比表格:
MSI硬派师很硬派
这次GeForce RTX 5060 Ti 16GB评测是基于MSI微星GeForce RTX 5060 Ti 16G INSPIRE 2X硬派师进行的,后续测试的散热表现、扩展、供电和使用体验均依赖于微星团队的散热设计。
这块显卡给人的第一印象是短小、紧凑且做工质感不错,硬派师的名号果然很硬派。一切归结于微星GeForce RTX 5060 Ti 16G INSPIRE 2X硬派师使用了全金属包裹,且外形方正,但诸多设计巧思让这块显卡充满细节。
按照团队的说法,微星GeForce RTX 5060 Ti 16G INSPIRE 2X硬派师设计理念致敬了蒙德里安,蒙德里安风格是一种以几何图形为基本元素的会发风格,通过简洁有序的结构设计,展现出秩序和平衡的视觉效果。
微星GeForce RTX 5060 Ti 16G INSPIRE 2X硬派师以金属色调作为基础,正面双风扇设计简明内敛,不再增加过多元素。
顶端的GeForce RTX和MSI验明正身,配合蒙德里安风格展现出了散热鳍片的肌肉感。
微星GeForce RTX 5060 Ti 16G INSPIRE 2X硬派师使用的两个风扇,采用了七片扇叶的设计,在风扇边缘使用了龙爪纹理增强风压,配合圆形弧线设计,能够更好的降低噪音和增强气流效果。
在实际测试中,双风扇的噪音为39dBA,噪音几乎可以忽略不计。
搭配双风扇主动散热的是一套完善的导热系统,包括镀镍铜底座和方形核心热管,将GPU核心和显存颗粒产生的热量迅速传导到热管上,并以最大限度地与GPU底座接触。位于气流通道处的导流鳍片带有V形切口和高低错落的设计,以提升气流流动效率。
微星设计团队还针对显卡不同区域设计不同幅度的波浪鳍片,进而构成波浪形鳍片3.0,相对2.0版本能做到气流较小区域的强化。同时显卡本身也支持风扇启停设计,名为零动空间的功能只有在GPU高负载需要散热的时候,才会启动风扇,日常使用保持静音设计。
此外,微星GeForce RTX 5060 Ti 16G INSPIRE 2X硬派师也保留了微星向来优秀的做工,包括一整块金属背板,元器件与散热模组之间的高效导热垫片,高效率的DrMOS供电,以及特制的PCB保险设计,降低显卡烧毁报销的风险。
一套散热组合拳后,在压力测试下GPU温度为72℃左右。通过红外线检测,可以看到微星GeForce RTX 5060 Ti 16G INSPIRE 2X硬派师外部温度集中在上方散热鳍片部分,最高温度66℃,远离供电接口。
由于GeForce RTX 5060 Ti 16GB的TGP功耗为180W,1个8-pin电源就可以实现,因此微星GeForce RTX 5060 Ti 16G INSPIRE 2X硬派师供电部分没有使用新版的12VHPWR接口,而是沿用8-pin电源口,对老款电源也更为友好。
在输出接口上,微星GeForce RTX 5060 Ti 16G INSPIRE 2X硬派师提供了3个DisplayPort 2.1b接口,最高可以实现480Hz条件下实现4K 12-bit HDR显示效果,或者通过双接口并联实现8K HDR 100Hz输出。另外1个HDMI 2.1a接口支持DSC技术,最高实现165Hz条件下8K 12-bit HDR。对于这个显卡定位的2K分辨率游戏体验而言,接口性能绰绰有余。
DLSS 4鏖战2K,战斗力亮了
与RTX 4060 Ti时主推8GB版本不同,这一次NVIDIA将推荐重点放在GeForce RTX 5060 Ti 16GB版本,更大容量的显存意味着在更高游戏分辨率、复杂场景渲染中有更好的图形表现,同时也可以存下更高分辨率的纹理,对于深度学习与人工智能而言,大显存带来的收益也尤为明显,对比GeForce RTX 5070 12GB也更有吸引力。
在游戏实战环节,我们分成DLSS 4游戏和常规测试部分。
在GeForce RTX 50系列GPU密集发布的同时,DLSS 4普及速度也正在加速,就在评测解禁前一天,《黑神话:悟空》也正式更新了对DLSS 4的支持。
DLSS 4的魅力在于,引入了全新的多帧生成技术(Multi Frame Generation,MFG),提供更快的性能和更低的内存使用。同时神经网络模型由单一的CNN卷积神经网络加速,切换到了CNN卷积神经网络与Transformer模型共同加速,从而实现画质与帧率的提升。以此为基础,DLSS 4在超分辨率(Super Resolution,SR),光线重建(Ray Reconstruction,RR),深度学习抗锯齿(Deep Learning Anti-Aliasing,DLAA)都有了更好的表现。
以《黑神话:悟空》为例,开启DLSS 4 4X之后,天命人的毛发变得更为清晰,而在DLSS OFF原生画质下,天命人毛发有一些马赛克感。同样,远处的丛林在DLSS 4 4X画质下更为细腻,DLSS OFF的原生画质会模糊感。更重要的是,不仅画质有所提升,DLSS 4 4X开启后游戏帧率也会成倍提升,后面会进行详细说明。
DLSS 4另一个重大改变就是帧率的显著提升。原本DLSS 3上的帧生成,变成了DLSS 4上的多帧生成。原本DLSS 3上的光流加速器搭配游戏运动矢量、神经网络的方式,现在由第五代Tensor Core通过神经网络一手包办,多帧生成让每个游戏帧可以额外获得3个帧,并且新帧生成AI模型比之前帧生成方法快40%,使用的显存减少了30%。
在DLSS 4和16GB显存双重加持下,GeForce RTX 5060 Ti 16GB一步跨入了流畅运行2K最高画质游戏的门槛。
在实战环节,我们准备的测试平台包括AMD Ryzen 7 9800XD3搭配B850,32GB DDR5-6400。
在DLSS 4的基础测试中可以看到,GeForce RTX 5060 Ti 16GB通过DLSS 4 4X在4K分辨率下帧率是GeForce RTX 4060 Ti 8GB的2.03倍。
同样,这里也针对几款支持DLSS 4的游戏展开测试。所有游戏均已2K最高画质且开启最高光线追踪进行,DLSS画质设置成性能。前面提到的《黑神话:悟空》,GeForce RTX 5060 Ti 16GB帧率是GeForce RTX 4060 Ti 8GB的1.59倍。
《龙腾世纪4:影障守护者》是最先提供DLSS 4支持的游戏之一,不过在游戏中不能直接设置DLSS 4生成的帧率数量,而是通过NVIDIA APP优设对帧生成进行调整。在2K分辨率最高画质且开启光线追踪的前提下,GeForce RTX 5060 Ti 16GB帧率是GeForce RTX 4060 Ti 8GB的3.57倍,16GB显存带来的优势非常明显。
《漫威争锋》同样也是首发宣布支持DLSS 4,原本依靠NVIDIA APP对生成帧进行调整,但现在随时可以在游戏设置中切换,有兴趣的同学可以自行在同一个画面下调整DLSS ON和OFF之间的差距,无论画质还是帧率差距都非常明显。在游戏中,GeForce RTX 5060 Ti 16GB帧率是GeForce RTX 4060 Ti 8GB的2.09倍。
同样《霍格沃茨之遗》中,GeForce RTX 5060 Ti 16GB帧率是GeForce RTX 4060 Ti 8GB的2.12倍。
讲究氛围感的《心灵杀手2》,在2K分辨率最高画质,开启DLSS超级性能模式下,GeForce RTX 5060 Ti 16GB帧率是GeForce RTX 4060 Ti 8GB的2.73倍。
《赛博朋克2077》直接使用了内置的测试程序,GeForce RTX 5060 Ti 16GB帧率是GeForce RTX 4060 Ti 8GB的4.2倍。
《星球大战:亡命之徒》,游戏中已经内置了帧生成Frame Generation和光线重建Ray Reconstruction两个选项,其中帧生成Frame Generation可以提供2X帧生成和3X和4X的多帧生成。GeForce RTX 5060 Ti 16GB帧率是GeForce RTX 4060 Ti 8GB的2倍。
需要注意,DLSS 4的实现是需要第五代Tensor Core与NVIDIA云端AI共同努力的结果,因此DLSS 4只有在GeForce RTX 50系列GPU才能实现,所以GeForce RTX 5060系列GPU能够进一步拉低价格时,对DLSS 4普及有更为重大的意义。
在基础光栅测试中,惯例选用DirectX 11和DirectX 12性能的3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal作为参考。
GeForce RTX 5060 Ti 16GB在基础光栅性能上,相对GeForce RTX 4060 Ti 8GB提升在25%左右,相对GeForce RTX 3060 Ti提升在40%左右。NVIDIA把基础性能定位卡得很准。
在2K游戏的实战环节。DLSS 2游戏中,GeForce RTX 5060 Ti 16GB依靠更大的显存,相对RTX 4060 Ti 8GB提升25%到80%,提升幅度是非常明显的。
DLSS 3游戏环境中,GeForce RTX 5060 Ti 16GB相对RTX 4060 Ti 8GB提升在24%到33%左右,也是一个非常明显的提升。
AI创作小能手
16GB显存注定让GeForce RTX 5060 Ti在AI上更具备战斗力。这里我们先引入UL Procyon AI的文本生成基准测试做参考。在文本生成测试中包含了Phi-3.5-mini-3.8B,Mistral-7B-v0.2 7B,Llama -3.1 8B,Llama-2 13B。由于GeForce RTX 4060 Ti 8GB在显存上无法支持Llama-2 13B运行,因此无法获得成绩。
从结论上看,GeForce RTX 5060 Ti 16GB相对RTX 4060 Ti 8GB提升10%到20%左右。
MLPerf-Client v0.5是由MLCommons联盟开发的机器学习基准测试,成员来自哈佛大学、斯坦福大学、NVIDIA、谷歌的工程师和研究人员,旨在不同平台下探讨GPU的AI性能释放,LLMs大语言模型正好是其中之一。这里MLPerf-client使用Meta的Llama2-7B模型进行。
这里GeForce RTX 5060 Ti 16GB相对RTX 4060 Ti 8GB提升40%到90%,Summarization, Moderate场景中提升幅度高达489%。
DLSS 4也已经在D5渲染器中得到了应用,已经可以在软件菜单中找到Super Resolution,Ray Reconstruction和Frame Generation选项。另外DLSS 4 4X多帧生成还可以通过NVIDIA APP设置来实现。
这里GeForce RTX 5060 Ti 16GB在开启DLSS 4之后,表现比GeForce RTX 4070 Ti SUPER还要强劲一些,帧率是RTX 4060 Ti的1.94倍。
在渲染应用场景中,我们使用V-Ray 6 Benchmark GPU RTX进行对比,GeForce RTX 5060 Ti 16GB相对RTX 4060 Ti 8GB提升33%。
Blender Benchmark 4.3.0引入的Moster、Junkshop、Classroom三个参考场景作为参考,GeForce RTX 5060 Ti 16GB相对RTX 4060 Ti 8GB提升8%到21%。
写在最后:将2K游戏与AI普适化
纵观50系产品线,GeForce RTX 5060 Ti 16GB可能是目前为止性价比最高的GPU,16GB GDDR7显存让其可以2K分辨率游戏以最高画质流畅运行,所有游戏帧率都可以轻松突破100FPS甚至更高。
特别是在DLSS 4 4X的加持下,游戏画面的稳定性、画质都有着更好的表现,特别是像《黑神话:悟空》,以及即将到来的《DOOM: The Dark Ages》这样的热门游戏加入,DLSS 4愈发诱人,而在近段时间内NVIDIA DLSS 4支持的游戏和应用超过了100款,普及的速度远比初代DLSS快上不少。
重点是,GeForce RTX 5060 Ti 16GB凭借着大显存的优势,在AIGC生成式内容创作,以及常规的视频编辑、渲染方面展现出了不错的性能,可以让主流玩家在游戏之余尝试更多AI与内容创作,也已经是个很好的选择。
最后还要一提MSI微星GeForce RTX 5060 Ti 16G INSPIRE 2X硬派师给人留下不错的印象,短小紧凑且充满艺术化的设计,让这张显卡可以很好的节省机箱内部空间,并且帮助GeForce RTX 5060 Ti 16GB释放充足的性能。
如果你近期有计划在3000元到4000元档位选择一款显卡,笔者强烈建议考虑GeForce RTX 5060 Ti 16GB版本,更大的显存和DLSS 4加持,不仅让其相对上一代提升幅度明显,也给后续AI与新3A游戏大作体验留足空间,更大显存带来的快乐,在GeForce RTX 5060 Ti 16GB上已经表现的淋漓尽致。
来源:爱极物