1引言&外观赏析
引言
说起RTX40系显卡,大家映入眼帘的应该是它强大的性能和出色的能耗比,当时一经推出,就成了众多发烧友的追捧对象,不少AIC厂商都在推出了当家花旦,让游戏玩家一饱眼福,尝鲜RTX40系显卡的魅力。昂达作为NVIDIA在国内的主要合作伙伴,也于近日推出了新品GeForceRTX4080魔剑16GB显卡。
全新的魔剑系列显卡定位为昂达的高端旗舰,而这次推出的GeForceRTX4080魔剑16G更是该系列首款显卡产品。熟悉昂达的小伙伴应该知道,以前昂达做的都是中低端显卡,最高也只是到RTX3060Ti、RTX2060SUPER,这次直接拉满,直冲RTX4080,想必你也和我一样,十分好奇这张显卡的表现,让我们一起见证这张新显卡能否利刃出鞘!
下文“昂达GeForceRTX4080魔剑16GB”简称为“昂达RTX4080魔剑”
规格对比
在开始之前,先了解一下本次的主角RTX4080,其采用的是AD103-300核心,TSMC4N工艺制造,芯片面积为379平方毫米,晶体管密度达到了459亿,晶体管数量相比较于上一代产品提升明显,近乎翻倍,而这一代的核心还进一步提升了频率,因此能带来更好的性能表现。
其他参数方面,RTX4080RTX4080标配9728个CUDA,128个第三代RTCores,512个第四代TensorCores,并且用上了16GB的GDDR6X显存,大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。
而目前RTX4080显卡配备的AD103-300核心并不是完整的AD103核心,完整的AD103核心应该包括7个GPC(图形处理集群)、40个TPC(纹理处理集群)、80个SM(流式多处理器)以及一个带有8个32Bit显存控制器的256Bit显存带宽。因此笔者猜测,RTX4080或许不是AD103核心下的终极产物,后续应该还会推出完整AD103核心的RTX4080Ti。
再看看下方的RTX4080的核心结构图,和完整版本的AD103核心对比起来就很容易看出差别,RTX4080核心代号为AD103-300,其拥有4个完整规格的GPC(图形处理集群,每个内建6个TPC),与3个非完整的GPC(两个内建5个TPC,一个内建4个TPC),共组成38个TPC,SM单元则剩下76个,显存位宽还是完整的256Bit。
但是RTX4080上的AD103-300核心在编解码器上砍了一刀,不得不说老黄的刀法精准,编解码器数量直接砍半,与RTX4090同等规格,仅保留了两个NVENC编码器和一个NVDEC解码器,因此完整版的AD103核心应该会有更快的视频编解码速度,不过之前测试过RTX4090,编解码速度相比上一代有着近乎翻倍的提升,想必RTX4080也有不错的表现。
外观赏析
正面包装盒最吸睛的莫过于中间巨大的“眼睛”,熟悉NVIDIA的玩家一眼就能认出那是经典的眼睛Logo,这也代表了昂达不断探索新技术、接近和创新的精神。包装盒的右下角写着“GeForceRTX”字样。
包装盒的背面就显得简约了许多,大多数标识都是昂达RTX4080魔剑显卡全新升级的技术及品牌理念等。
昂达RTX4080魔剑表面方方正正,但不失质感,黑色的外观配合斜切线条低调而不失优雅,超大风扇的表面还置入了光线镭射条,在不同角度与光线下能显示不同显示效果,观感极佳。
正面是三把巨型的散热风扇,昂达将其命名为“冰点”滚珠风扇,可见其对散热效能的信心。三把风扇中左右两个为10cm,中间的为9cm,每把风扇上配以9片交错的流线型扇叶,可带来更多的进风量。
翻到显卡背面,可以看到昂达RTX4080魔剑还配备了一体式阳极铝金属强化背板,可以有效保护PCB。
在显卡背部还有大面积的镂空风道,这样设计不仅颜值更美观,还可以令鳍片上的热量被快速带走,有效地增强散热效率。
显卡的顶部是一小块屏幕,当显卡接通电源后,屏幕会显示“ONDA”的呼吸灯,大幅增加了这张显卡的时尚个性。
屏幕之外就是一整排的出风口,横跨整个显卡顶部和底部,配合正面的三把散热风扇,加速热量排出。
供电接口还是我们熟悉的老朋友——12VHPWR供电接口,用来带这张320WTGP的昂达RTX4080魔剑可以说是绰绰有余了。
底部为显卡金手指,接口为标准的PCIe4.0x16,在使用前一定要在主板打开ResizableBAR功能,这张显卡的性能才能完全释放。
比起其他RTX4080显卡,昂达RTX4080魔剑更为“轻薄”,是一张三槽显卡,配备了3个DP1.4接口和1个HDMI2.1接口,支持最高8K输出显示。
2显卡拆解
显卡拆解
每张显卡到了我手里,必不可少的就是拆解,这张昂达RTX4080魔剑的拆解还是相当容易的,只需要卸下金属背板上的螺丝即可完全分离PCB与散热器。
PCB是类公版的方案,从PCB正面可以清楚的看到昂达RTX4080魔剑为越肩设计,比一般的显卡都要再高一些,不过PCB上的接口、供电、核心、显存,以及辅助供电位置都相当的合理且规正。
翻到背面,相比正面就要简洁不少了,显卡上的一些控制芯片被安置在此。在核心的背面还有两颗两个POSCAP(导电聚合物钽电容),有它们坐镇,显卡整体的电气性能会更强。
PCB上的主角那肯定是AD103-301-A1核心,由TSMC4N定制工艺打造,换装了全新的AdaLovelace架构,9728个CUDA核心加持,同时兼具超高的能耗比,这也让它能够在昂达RTX4080魔剑上大放异彩。
核心旁则是8颗GDDR6X显存,来自美光,型号为2PU47D8BZF,作为GDDR6的升级版,显存位宽为256Bit,速度达到了22.4Gbps,并且单颗容量达到了2GB,8颗组成16GB的大显存为昂达RTX4080魔剑提供澎湃性能。
供电规模也是这款显卡最值得关注的点,昂达RTX4080魔剑的供电模组被安排在PCB的两侧,采用13相核心供电+3相显存供电。
每相供电都采用独立的DrMos芯片,封装型号为BLN3,实际应为AOS的AOZ5311NQI-03,持续输出电流为55A。
核心供电DrMos芯片
显存供电DrMos芯片
供电控制芯片则安排在了PCB背面,分别是uP9512R、uP9529Q和uS5650Q,其中uP9512R和uP9529Q共同管理核心供电,可以做精细化的供电管理,而uS5650Q则是主要负责显存供电部分。
uP9512R芯片
uP9529Q芯片
uS5650Q芯片
昂达RTX4080魔剑用的是最新的12VHPWR供电接口,单口最大功率600W,仅需一根12VHPWR的电源线就可以完成对于显卡的供电,安装方便。
拆解继续!我们来看看昂达RTX4080魔剑的散热系统,这个散热系统由主动散热的散热风扇、散热器以及金属背板三部分组成。
先看看这个硕大的散热器,整个散热器采用热管直触设计,这样有利于加速解热,整体的散热效能更强。
供电MOS、显存、核心芯片紧密接触均热板,并且还为接触的地方加装了高系数的导热垫辅助散热,全方位优化热量传递效率,散热能力更胜一筹。
散热器用的是两段式的散热模块,两边均升级了特大面积的散热鳍片。散热鳍片的底下,6根高性能热管穿梭而过,超高效的散热效能助力显卡超性能发挥。
有如此规格的一体成型鳍片模组设计,再配合金属背板上的镂空窗口以及优秀的风道设计,昂达RTX4080魔剑想热都难。
主动散热部分是三把“冰点”滚珠风扇,每把风扇上有9片流线型扇叶,这样设计的目的是增加进风量,让显卡即使高负载运转时也能快速散热,稳定满血释放。
三把风扇均采用智能控制,当显卡在低功耗运行时,风扇能够智能停止转动,保证良好的低噪音效果与更稳定的性能。
3测试平台&理论/游戏性能测试
测试平台介绍
先介绍一下本次的测试平台,昂达RTX4080魔剑作为次旗舰定位的显卡,想要与之映衬的硬件自然不能差,因此我们用上了评测室最强配置,CPU用的是Inteli9-13900K,主板为ROGMAXIMUSZ790HERO,内存插满,直接上金士顿的64GBDDR5-6000,这样的配置才能让展现这张显卡的性能。
单有强悍的硬件可不够,显示设备也得跟上,所以我们为这张昂达RTX4080魔剑配备了4K显示器的天花板——爱攻&保时捷联名设计的AGONPD32M,4K@144Hz高刷,还有miniLED背光加持,从里到外都散发着一种高级感,只有这样的显示器才能配得上这张旗舰显卡。
开始测试前,先通过GPU-Z了解一下测试的昂达RTX4080魔剑,从图中可以看出这款显卡的基准频率为2205MHz,Boost频率可以达到2505MHz,与公版RTX4080保持一致。
而在温控和功耗策略方面,这款显卡的TGP设定为320W与公版保持一致,允许的最高功耗限制为330W。在温度墙上,这款显卡也颇为激进,最高可以去到88℃,显然这是为超频所准备的。
理论性能测试
啰嗦了那么多,测试正式开始,首先是理论性能测试,为了更好的展现昂达RTX4080魔剑的性能,我们也加上了前代卡皇RTX3090Ti进行对比。
在全世界最好玩的游戏《3DMark》中,这张显卡的表现可以用惊喜来形容。单是对比上代的RTX3080Ti,昂达RTX4080魔剑的领先幅度能够达到33%,如果是跟前卡皇RTX3090Ti,它也丝毫不虚,性能领先依旧有20%以上。
要说这里面提升幅度最大的要属FireStrike项目,昂达RTX4080魔剑得分59244,只差一点就能突破6W分大关,这个成绩是RTX3080Ti的1.2倍,可见新架构和新工艺带来的性能提升有多明显。
如果看老黄引以为傲的光追项目,性能差距还会更加明显,作为老黄家的看家本领,这代显卡在光追和DLSS上也是提升明显,单是在PortRoyal测试中昂达RTX4080魔剑的得分就高达17711,而作为前代卡皇的RTX3090Ti仅有1W4左右,单是光追的提升就有30%以上,更别说DLSS加持后对游戏性能的提升了。
看完了常规的理论测试,再看看GPGPU的算力测试,在这个项目中,昂达RTX4080魔剑的的领先幅度进一步提升,无论是跟RTX3080Ti比还是跟RTX3090Ti比,它的性能都高出40%左右,真的不负旗舰之名。
游戏性能测试
像我们这种臭打游戏的最关注的肯定是昂达RTX4080魔剑的游戏性能,因此我们也在不同分辨率下选取了多款主流热门的3A游戏进行实测。
1080P分辨率真的毫无压力,不会真有人用RTX4080配1080P的屏幕吧?!实测中可以看到昂达RTX4080魔剑的整体性能领先上代RTX3080Ti足足有27%以上,不少游戏都是200+FPS,这个表现已经不能用流畅来形容了,要用丝滑。
2K分辨率下,昂达RTX4080魔剑与RTX3080Ti的差距进一步拉大,此时的RTX3080Ti很多游戏都是100多FPS,但昂达RTX4080魔剑凭借高显存、新架构的优势,绝大多数游戏还能保证接近甚至超越200FPS的水准,像跑分界的活化石《古墓丽影:暗影》,这个优化极好的游戏在这款显卡的加持下,几乎快要突破300FPS!
4K分辨率下,昂达RTX4080魔剑的游戏性能领先RTX3080Ti达到了40%,不少游戏已经是可玩跟流畅玩的区别了。要说这里面最明显的当属显卡杀手之称的《赛博朋克2077》和《地铁:离去增强》,RTX3080Ti在这两个游戏里都是勉强60FPS的水平,但昂达RTX4080魔剑在仅开启DLSS2的情况下已经能够做到90FPS了,更别说它还有隐藏的DLSS3这个黑科技。
看过RTX4090的都知道,8K游戏已经成为可能,那作为次旗舰的昂达RTX4080魔剑又如何呢?经过我们实测,可以看到部分游戏依旧可以跑到60FPS以上,像优化好的《极限竞速:地平线5》可以去到70FPS,《古墓丽影:暗影》甚至可以有103FPS的优秀成绩,可见8K还是可以期待一下的。
总的来说,得益于架构革新和缓存加大,这代RTX4080显卡在开启最高画质和DLSS的情况下,市面上的3A大作已经能够畅玩了,对于游戏玩家来说,昂达RTX4080魔剑不仅是一块趁手的游戏工具,更是一款性价比的高端显卡,2K@165Hz、4K@144Hz的电竞体验统统不在话下。
4DLSS 3性能测试
DLSS 3性能测试
要说RTX40系显卡最大的升级点是什么?那莫过于DLSS3这个黑科技了,DLSS作为RTX20系推出的黑科技,其目的就是为了让显卡能够在不影响画质的前提下提高游戏性能,让玩家能够体验更真实的游戏画质。现在老黄在RTX40系显卡上带来了全新的版本——DLSS3,相比前作,新增帧生成和NVIDIAReflex技术,能够实现游戏性能的翻倍提升。
3DMarkDLSS3理论性能测试
先给DLSS3来一个理论性能测试,我们使用3DMark中的DLSS专项测试进行。实测下来可以看到昂达RTX4080魔剑在开启DLSS2时已经能够畅玩4K了,如果开启DLSS3后,性能能够进一步提升,并且开关DLSS3前后性能差距能够达到3倍以上,同时我们也试了一下8K分辨率,开启DLSS2时,45FPS还是不能达到流畅游玩,但当你打开DLSS3后,游戏帧数可以去到70FPS左右,已经可以期待8K流畅游戏了。
《光明记忆:无限》游戏实测
关测理论数据可没有意思,我们也选用了目前支持DLSS3技术的游戏进行实测,这里我们以《光明记忆:无限》为例,这款游戏现在已经支持DLSS3了,并且在游戏中还能通过开启DLSS3的插帧功能来实现DLSS2与DLSS3的对比,接下来就让我们看看昂达RTX4080魔剑到底能有怎样的表现。
实测在不开启DLSS的情况下,昂达RTX4080魔剑在4K分辨率下仍是可以流畅运行《光明记忆:无限》的;开启DLSS2后,游戏帧数就达到了137FPS,1%帧数也达到了115FPS,这完全就是翻倍的游戏流畅度提升;至于开启DLSS3之后,游戏帧数更是达到了160FPS,配上4K@144Hz的AGONPD32M显示器,别提有多爽了,真的是丝滑电竞。
这里我们也截取了一下游戏在4K分辨率下开启DLSS3后的游戏效果,可以看到画质依旧清晰,几乎与原生4K无异!
UnrealEngine5EnemiesDEMO性能测试
最后我们还测试了开发游戏所需用到的UnrealEngine5引擎,UE5作为全新的游戏开发引擎。对显卡的压力自是不小,在EnemiesDEMO中,昂达RTX4080魔剑开启DLSS3后犹如有高人相助,4K分辨率下可达77AVG/661%FPS/55ms的水平,而关闭DLSS3仅有22AVG/171%FPS/195ms,前后足足相差3倍之多,可见老黄的黑科技真的没有骗人。
并且开启DLSS3后,游戏流畅度提升的同时,画质也不受影响。我们可以从视频中可以看出,即使开启DLSS3后,从肉眼看来,开关前后的画质几乎没有区别,并且因为DLSS是利用AI进行渲染,在部分细节上,DLSS模式下的画质甚至比原生画质还要清晰。
2K分辨率DLSS性能测试
我们不仅测了《光明记忆:无限》,还测了更多的游戏在开关DLSS3下的区别,从测试数据中可以看到在2K画质下,开启DLSS2后昂达RTX4080魔剑已经超越前代RTX3080Ti不少了,一旦开启DLSS3,它将大幅领先前作,不少游戏在DLSS3的加持下已经能够满足240Hz的高刷游戏需求了。
4K分辨率DLSS性能测试
上面我们实测在DLSS2下,昂达RTX4080魔剑征战4K分辨率没有丝毫问题,现在有了DLSS3,成绩更是亮眼,在开启DLSS3后,游戏帧数相比DLSS2高出20-30帧,而相比RTX3080Ti来说,那就是性能的翻倍!像《赛博朋客2077》开启DLSS3后,前后游戏差距足足有30帧,即便是4K,超级光追的模式下,现在昂达RTX4080魔剑也能有114FPS了,如果降低一些特效,4K@144Hz畅玩夜之城将成为现实。
8K分辨率DLSS性能测试
8K分辨率其实我们也进行了测试,不过昂达RTX4080魔剑的16GB显存在这里就显得有些不足了,部分游戏都遇到了显存瓶颈,不过还是有部分游戏能够稳定在60FPS运行的,像是《瘟疫传说:安魂曲》《毁灭全人类2》这类新游戏,在开启DLSS3后还是不错的,满足流畅游玩问题不大。其他游戏则需要等游戏厂商优化,届时配上8K的显示器甚至是电视,全新的游戏体验一定能够惊艳众人。
5创作性能测试
创作性能测试
测完了游戏,4K甚至8K的游戏体验给我们留下了深刻印象,不过昂达RTX4080魔剑可不止在游戏上有所成就,在生产力上也颇有建树。这里我们也测试了包括PCMark10与PugetBench在内的多个项目。能够比较全面的反应这款显卡在综合体验和视频内容生产力方面的实力。
实测结果如下,在PCMark10的测试中,昂达RTX4080魔剑在数位内容创作和游戏项目上有不小的提升,这也与上面的游戏性能测试相符。而在创作生产力工具上,性能也比前代领先12%左右,相比RTX4090更是只有1%的性能差距,可以说创作生产力用户选昂达RTX4080魔剑更具性价比一些。
值得一提的是昂达RTX4080魔剑支持最新的AV1编解码功能,因此这次在达芬奇软件中相比前代RTX3080Ti有比较大的性能提升,如果后续软件经过不断优化和显卡驱动的更新,笔者想象以昂达RTX4080魔剑独有的AV1优势,在视频方面会更进一步,与前代的差距会越来越明显,因此如果你是一名视频创作者,我也更推荐你使用最新的昂达RTX4080魔剑。
再看看专业生产力的表现,如果说视频内容生产力的提升只是小步快跑,那在建模、渲染、工业设计等软件上昂达RTX4080魔剑就可以说是质的飞跃了,单是在Blender渲染软件中,相比前代RTX3080Ti就有50%以上的提升,面对RTX3090Ti也丝毫不虚,性能差距依旧有45%以上。
另外在SPECviewperf2020集成的8款工业软件测试中,昂达RTX4080魔剑的表现依旧喜人,整体性能领先RTX3080Ti有40%左右,这也意味着渲染同一素材时,使用昂达RTX4080魔剑可以缩短近三分之一以上的时间。
双NVENC编码器专项测试
要说RTX40系还有什么黑科技?那当属RTX40系显卡上升级的双NVENC编码器,它支持时下热门的AV1编码,而AV1作为下一代主流的视频编码技术有着自己独特的优势,其具有更快的编码速度和更高质量的流媒体传输性能,像达芬奇、万兴喵影、剪映等常用的剪辑软件已经支持AV1编码,B站等主流的视频网站也加入了AV1解码,未来AV1将会成为一个新趋势。
为了验证双NVENC编码器对视频创作的提升究竟有多大,我们使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测昂达RTX4080魔剑的编解码实力与旗舰级的RTX4090相当,同一段素材下,AV1编码相比H.265编码快不少;即使同样使用H.265编码,有双编码器的加持下,昂达RTX4080魔剑的效率比前代快62%以上。
AV1编码可不仅仅是快,它还有更多你意想不到的点,例如,它在占用空间上也颇有优势,从下图可以看到无论是4K还是8K分辨率,采用AV1编码后,视频文件大小平均能够降低25%以上。
你以为这就结束了吗,AV1编码导出快、占用小,画质也不输H.265,这里我们截取了几个画面进行对比,从肉眼来看,其实画质几乎完全一样,这样也意味着AV1可以用更小的空间占用量实现与H.265同等规格的画质表现。
6功耗&超频&评测总结
功耗与发热
这张昂达RTX4080魔剑的散热规格大家也都看到了,可以用极致豪华来形容,用它来压制AD103核心笔者都觉得大材小用了,这个规格别说RTX4080,就算是RTX4090也一样够用,因此笔者也相当好奇这款显卡的散热效能。
在Furmark甜甜圈单烤15分钟测试中,昂达RTX4080魔剑的占用率达到了99%,但此时的显存温度仅有50℃,GPU核心温度也是70℃左右,足以证明这代显卡在架构设计及散热器的双重优势下,功耗与发热表现近乎逆天,比大多数CPU的温度还要低。
值得一提的是无论是待机还是满载的情况下,这款显卡的风扇转速都相当低,放在机箱内几乎感觉不到风扇噪音,并且待机时的温度甚至只有30℃出头,可以说老黄的RTX4080真的把温度跟能耗比提升到了新台阶。
超频体验
在GPU-Z中我们知道昂达RTX4080魔剑可以将温度跟功耗墙都进行解锁,给超频留下了不小的空间,笔者也用小飞机进行超频测试,看看这款显卡的潜力究竟在哪里!
首先看看这款显卡在默频下,TimeSpy得分27858,这个成绩已经相当出色了,在它之上也只有RTX4090了,可见它的游戏性能不是一般的强。
紧接着我们在小飞机中解锁电压、功耗以及温度后,超频GPU核心,GPU核心保守点,先加190MHz,稳定过测,此时TimeSpy得分28820,此时显卡核心频率稳定在3000MHz。
继续加码,这次同时超频GPU核心及显存,GPU核心频率加220MHz,显存频率也拉升500MHz,这次TimeSpy得分已经来到了29158,相比刚才又增加了近400分。
最后我们将频率定格在GPU核心+250MHz,显存+500MHz的水平,此时的TimeSpy测试得分29265,相比默认频率下的27858分,提升了5%以上,这样的表现还是相当可观的。不过这应该不是昂达RTX4080魔剑的极限,如果有更好的散热条件,它应该还能继续冲击更高的频率。
评测总结
测试了这么多张RTX40系显卡以后,可以说全新的RTX40系显卡还是无时不刻带给我新的惊喜,Adalovece架构大大提升了执行效率和光追性能,TSMC4N工艺和豪华散热器让这代显卡的能耗比惊人,当然最值得夸赞的还是老黄的独家黑科技DLSS3,仅靠这个就让显卡的游戏性能翻倍,而在专业性能上新显卡也有质的飞跃。总体来说,RTX40系显卡内外皆惊喜。
我们再聊聊这次送测的昂达GeForceRTX4080魔剑16GB显卡,外观上虽不及其他家的显卡那样亮眼,但黑色的外壳加上两根渐变色带,远望有种绝地黑武士的既视感,整体给人一种低调又不失优雅的感觉,顶部的“ONDA”呼吸灯恰到好处,给这张显卡增添了一抹点睛之笔。
当然,性能方面才是它的杀手锏,得益于新架构和大显存的加持,这张显卡在我们的游戏测试中可谓所向披靡,几乎是上代显卡无法企及的高度。散热方面也相当不错,超强的散热系统与动力十足的风扇相配合,展现了无以伦比的功耗与温度表现,甚至在超频测试中,还能尽情释放,实现核心与显存的双双超频,性能提升也十分可观。
最后再聊聊这款显卡的售价,RTX4080公版上市时首发价9499元,虽然它的性能强劲,但高昂的售价依旧让不少玩家望而却步,紧接着发售的不少AIC显卡也在9499元之上。不过昂达GeForceRTX4080魔剑16GB显卡可谓是独树一帜,一经上市就是8999元的超值售价,如果你最近刚好想入手一款旗舰性能的高端显卡,那笔者推荐你关注一下昂达GeForceRTX4080魔剑16GB,低调冷艳的外观,极致震撼的性能是你不容错过的理由。
7技术讲解:Ada Lovelace架构
Ada Lovelace架构讲解
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元,以及面向AI推理的TensorCore单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RTCore和三代TensorCore基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代RTCores与第四代TensorCores单元,同时加入众多新颖的黑科技,从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
全新的SM流式多处理器
AdaLovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores(张量核心)、4个TextureUnits(纹理单元)、256KBRegisterFile(寄存器堆),以及128KBL1数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看AdaLovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForceRTX4080拥有76个SM,9728个CUDA核心,那你也就应该明白达82.6TFLOPS的着色器能力是如何实现的了,比上一代的RTX3090Ti显卡的40TFLOPS,还真是提升了两倍有多。
另外缓存方面AdaLovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128KB的缓存,这样RTX4080显卡中就实现了97MBL1/共享内存。其次核心的二级缓存进行进行了重新的设计,并且完整AD103核心与RTX4080都是64MB二级缓存,相比RTX3080Ti可以说是质的飞跃。
技术讲解:第三代RT Cores与第四代Tensor Cores
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。
第三代RTCores
RTCores用于光线追踪加速,第三代RTCores的有效光线追踪计算能力达到191TFLOPS,是上一代产品2.8倍。
在Ampere架构中,第二代RTCores支持边界交叉测试(BoxIntersectiontesting)和三角形交叉测试(TriangleIntersectiontesting)。用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代RTCores增加了两个重要硬件单元:OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine,主要是用于alpha通道的加速,可以将alpha测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些Alpha通道的素材来实现更高效的画面渲染,例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态三角形。根据Alpha通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
DisplacedMicro-MeshesEngine
如果说OpacityMicromapEngine加速的是面处理,那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示,在AdaLovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTCores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在AdaLovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时AdaLovelace架构SM中新增了着色器执行重排序(ShaderExecutionReordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代RTCores与第四代TensorCores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用GPU资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代TensorCores
TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎,具有高达1.32petaflops的张量处理性能,超过上一代的5倍。
8技术讲解:DLSS 3
技术讲解:DLSS 3
或者说第四代TensorCores太硬核你不会知道是啥?提升意义在哪?但是TensorCores最经典的应用DLSS你肯定会知道,这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS2)和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForceRTX显卡都能使用上,NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。
想实现DLSS帧生成可不简单,这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而AdaLovelace架构的光流加速器升级到了第二代,其提供了高达300TeraOPS(TOPS),比安培架构的初代光流加速器(OpticalFlowAcceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS3是建立在DLSS2基础之上的,游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能,所以DLSS3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIAReflex
NVIDIAReflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。
当GeForceRTX40系列显卡和NVIDIAReflex搭配上后,直接达到1440p分辨率360FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布,包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz,而最猛的是ASUSROGSwift360HzPG27AQN,刷新率直接来到了360Hz。
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。
9技术讲解:双NVIDIA编码器
技术讲解:双NVIDIA编码器(NVENC)
GeForceRTX40系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1编码器可将效率提高40%,同时显卡的占用也更低。包括OBSStudio一一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容,这样我们做游戏录制也会变得更为轻松。
包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。
微软资讯推荐
win10系统推荐