給大家科普一下歐皇娛樂左(2023已更新(今日/知乎)
原標題:iGame RTX 4070 Ti ADOC首測 價格砍半的3090ti你買嗎?
剛剛過完元旦假期,NVIDIA便發(fā)布了RTX 40系的第三張顯卡——RTX 4070 Ti。由于本次沒有公版發(fā)布,所以我們選擇了七彩虹的iGame GeForce RTX 4070 Ti Advanced OC顯卡,分別測試標準頻率以及一鍵超頻后的測試成績。作為2023年的第一張顯卡,它究竟值不值得我們期待呢,下面我們了解一下它。
作為Ti系列顯卡,按照常理應該在常規(guī)型號發(fā)布之后公布,不過本代的RTX 4070 Ti為何會如此早的與大家見面,想必我們也清楚。
經(jīng)過比對后發(fā)現(xiàn),這張卡的CUDA數(shù)量、核心頻率等都與之前宣布的RTX 4080 12G頗有相似之處。而NVIDIA公布的官方建議價格為6499元,相比上一張RTX 4080足足便宜了3000元,不知道對于這個結果大家是否滿意。下面先讓我們來看看本次評測顯卡的概覽。
1 iGame GeForce RTX 4070 Ti Advanced OC概覽每一代七彩虹顯卡在外觀上的改動都是非常大的,很多品牌RTX 40系的顯卡都是在原有RTX 30的基礎上簡單修改,但iGame在設計理念上也有著不小的變化,這次大家熟悉的iGame Advanced系列就是如此。
配件方面,iGame GeForce RTX 4070 Ti Advanced OC包裝內(nèi)自帶一個金屬顯卡支架以及螺絲刀,另外雖然RTX 4070 Ti的功耗有所降低,不過RTX 40系全員采用了16pin供電接口,所以還附贈了一個雙8pin的轉接線。
過去幾代的iGame Advanced系列顯卡大家都比較熟悉了,修長的外觀讓它在眾多顯卡中脫穎而出,更有“視覺刺客”的美名。不過在RTX 40系中,iGame GeForce RTX 4070 Ti Advanced OC則主打“宇宙隕鐵”的設計理念,下面我們來看看。
iGame RTX 40的Advanced系列顯卡整體構造簡化了很多,棱角分明,通體以銀色隕鐵卡身為主,正面導流罩為黑色,并有幾何三角形做點綴。另外標志性的能量核心進化為引力之環(huán),依然位于正中央的風扇,而此次它又有了更多玩法。
雖然Advanced系列經(jīng)過改版方正了許多,但在導流罩上下兩邊,能夠看出進行了非常大的倒角處理,Advanced和iGame的logo就分別在上下兩側的倒角邊上。
iGame GeForce RTX 4070 Ti Advanced OC的整體尺寸為344×150.2×60mm(含擋板),老實講作為RTX 40系顯卡,這個規(guī)格并不是很大,對比已經(jīng)發(fā)布的旗艦產(chǎn)品來說,拿在手里的重量依然算得上輕巧。
主動散熱部分,iGame GeForce RTX 4070 Ti Advanced OC采用了聚風鐮環(huán)扇葉,它為雙環(huán)型100mm+96mm扇葉升級加固的葉片環(huán)環(huán)相連,一體性更強。九翼扇葉如連鐮刀般鋒利,聚風驅(qū)熱。
Advanced系列的外甲采用包裹性更強的設計,金屬背板一直覆蓋到顯卡尾部,與正面導流罩相接。
而這次iGame GeForce RTX 4070 Ti Advanced OC的背板設計的也尤為漂亮,在不同燈光下拍攝能夠映出那種隕鐵淬火的感覺,質(zhì)感相當強。
更出彩的地方在于尾部的設計,除了iGame的鏤空logo外,那些神似銘文的字母,也是“iGame”的變體字,并且表面采用拋光處理,在不同光線下更顯神秘。
顯卡內(nèi)部散熱采用真空冰片技術,超扁平的密閉腔體內(nèi)充冷凝液,吸收熱量后通過相變原理散發(fā)熱量。真空密閉腔體與熱管及鰭片合為整體,散熱效能突飛猛進。搭配內(nèi)部6根8mm熱管的豪華配置提升散熱效率,“回流焊”工藝使熱管與鰭片間產(chǎn)生接觸面,優(yōu)化散熱效能。
視頻輸出接口上,依舊采用了HDMI 2.1 + DP 1.4a*3的四接口設計。HDMI 2.1可支持4K 120Hz HDR、8K 60Hz HDR。
另外在iGame GeForce RTX 4070 Ti Advanced OC上依舊有七彩虹獨特的一鍵超頻機械按鈕,反饋力度和確認感更明顯,點亮之后會發(fā)出藍光,易于識別。
本次iGame GeForce RTX 4070 Ti Advanced OC的整卡功耗為310W/330W,采用單16pin的輔助供電,推薦電源850W及以上。不過從本次包裝內(nèi)附送的雙8pin轉接線也能看出,之前的電源完全可以適配,但無奈NVIDIA這次統(tǒng)一接口,所以只能中間轉接這一下。
雖然功率沒有那么大,但有條件的還是建議大家選擇ATX 3.0電源,它自帶12VHPWR的16pin供電接口,最高可支持600W供電。
需要注意的是,目前適用于RTX 30系列的12pin接口和電源轉接器與RTX 40系列顯卡不兼容。
2 iGame Center軟件及燈光雖然Advanced系列表面上燈光沒有那么多,但還是強烈建議下載iGame Center軟件,中間的引力之環(huán)燈效非常有意思,而且新版軟件不僅可以調(diào)節(jié)燈效,還有數(shù)據(jù)監(jiān)控功能。
軟件首頁會顯示詳細的硬件參數(shù)信息,如果是七彩虹家的產(chǎn)品也能夠準確識別出來。
本次iGame GeForce RTX 4070 Ti Advanced OC的亮點就在于風扇的“視覺暫留”效果。
在普通模式下,Advanced系列巧妙地憑借燈光閃爍加上風扇的轉速,形成有節(jié)奏的顏色交替變化,“演出效果”滿分。
而在靜止模式下,燈光會通過特定的頻率來顯現(xiàn)幾乎靜止的扇葉狀態(tài),不過由于風扇轉速隨時都在發(fā)生變化,會出現(xiàn)緩慢轉動的現(xiàn)象。
在iGame Center的燈光調(diào)節(jié)中,還有不同的扇葉數(shù)目調(diào)節(jié),最多3倍的扇葉,看起來有點“反應堆”的意思了。
新版的iGame Center還支持開啟監(jiān)控窗口,分為簡潔模式和iGame模式,iGame模式則對應七彩虹家不同系列顯卡。
不過要注意的是,開啟OSD監(jiān)控會消耗一小部分顯卡性能,玩家可根據(jù)自己的使用情況酌情開啟。
除了日常監(jiān)控,部分游戲還支持生成游戲日志數(shù)據(jù),方便玩家觀察全方位的數(shù)據(jù)統(tǒng)計。
3 NVIDIA GeForce RTX 4070 Ti 架構淺析本次發(fā)布的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構打造,TSMC 4N NVIDIA定制工藝,旗艦核心AD102達到了恐怖的760億個晶體管,而在RTX 30系顯卡中為280億個。
與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升,最高可達到90-TFLOPS的著色器數(shù)據(jù)吞吐量。
本次發(fā)布的GeForce RTX 4070 Ti達到40-TFLOPS,而不久前發(fā)布的RTX 4090則為83-TFLOPs。
完整AD102核心
完整AD104核心
RTX 4070 Ti所使用的AD104
本次GeForce RTX 4070 Ti使用了AD104芯片,標準的5組GPC,NVENC單元削減了3個。
我們再來詳細的看看每個SM單元,其中與NVIDIA Ampere架構有著同樣的FP32 CUDA核心,同樣的FP32/INT32混合CUDA核心,同樣的L1級緩存等等。當然,每個SM單元內(nèi)部的Tensor Core升級為第四代。
不過變化最為顯著的,則是第三代光追核心,我們結合兩代架構來看。在第二代光追核心中,包含負責邊界交叉測試的Box Intersection Engine引擎,和負責三角形交叉測試的Triangle Intersection Engine引擎。
而在第三代光追核心中,還增加了兩個新的引擎:Opacity Micro-Map Engines(OMM)和Displaced Micro-Mesh Engines(DMM),這兩個新的硬件單元可以極大地提升光追性能(具體原理后文詳細介紹)。
至此,每2個SM單元組成一個TPC單元,每6組TPC單元組成一個完整的GPC頂層單元(在部分核心中,會出現(xiàn)5組TPC組成一個GPC單元的情況)。
而每個GPC單元又搭載一個獨立的光柵引擎、兩組ROP分區(qū)(每組包含8個ROP單元)。
由于整體架構分析篇幅較長,關于NVIDIA Ada架構的其他新特性就不在這里介紹了,將在文章末尾以附錄的形式展開說明,有興趣的用戶可翻至最后。
4 測試平臺簡介首先介紹一下測試平臺,為了保障iGame GeForce RTX 4070 Ti Advanced OC這張顯卡的性能發(fā)揮,我們的平臺也再次進行了全面更新。
本次測試平臺的處理器采用了Intel最新的13代i9-13900K,性能絕對強悍,并且電源和顯示器上進行了著重升級。
首先看一下GPU-Z的參數(shù),由于本次iGame GeForce RTX 4070 Ti Advanced OC有標頻和一鍵超頻兩種頻率,我們也分別進行了測試。
不過即便是標準頻率,也無法完全模擬出公版的數(shù)據(jù)性能,畢竟兩張卡的設計和做工用料完全不同。這里也只能看做是iGame GeForce RTX 4070 Ti Advanced OC在2610MHz下的性能表現(xiàn),所以后續(xù)“公版”的測試分數(shù)僅供參考。
此次RTX 4070 Ti采用全新的AD104核心,擁有7680個CUDA,這與之前曝出的RTX 4080 12GB的參數(shù)相同。本次測試的iGame GeForce RTX 4070 Ti Advanced OC的Boost頻率為2760MHz,對比公版的2610MHz有非常大提升。
采用12GB GDDR6X Micron顯存,位寬為192bit,顯存帶寬達到了504.2 GB/s,光柵單元和紋理單元為80和240。
5 理論性能測試下面先進行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能,取顯卡分數(shù)實際測試結果如下:
這里著重說明一下,i9-13900K在測試3DMARK FS成績中存在BUG,GPU占用不足,導致分數(shù)較低;這里的FS成績?yōu)閕9-13900K處理器關閉小核心測試所得。
在針對顯卡DX11性能的3DMARKFS套裝測試中,iGame GeForce RTX 4070 Ti Advanced OC主要對比上一代旗艦RTX 3090 Ti,其中FS提升了12%;FSE提升了6%;FSU差距在1%,綜合來看相比RTX 3090 Ti的性能提升約為6%。
而對比剛剛發(fā)布的RTX 4080,綜合成績相差18%左右,這中間的差距雖然沒有RTX 4080與RTX 4090大,但仍然足夠安放一個型號,不過Ti已經(jīng)用了,不知道后續(xù)會不會是SUPER?
而在針對DX12環(huán)境下的Time Spy和Time Spy Extreme測試中,iGame GeForce RTX 4070 Ti Advanced OC相較RTX 3090 Ti的成績分別為:TS提升7%;TSE成績相同。
PortRoyal是3DMARK中專門針對光追性能的測試項,iGame GeForce RTX 4070 Ti Advanced OC相較RTX 3090 Ti的分數(shù)差距約為1%,幾乎是實力相當。
綜合來看,iGame GeForce RTX 4070 Ti Advanced OC的理論性能相較RTX 3090 Ti的提升約為4%。
不過這4%也并不是平均都提升,其實可以明顯看到在分辨率越高的情況下,RTX 3090 Ti的優(yōu)勢越明顯,畢竟兩款顯卡的顯存帶寬相差一倍。
盡管RTX 4070 Ti的L2緩存達到了驚人的48MB,而RTX 3090 Ti只有6MB,但高位寬高帶寬整體的優(yōu)勢依然明顯。
Speed Way測試是3DMARK最新更新的用于測試DirectX12 Ultimate 性能的顯卡基準測試。要運行此測試,顯卡必須支持 DirectX 12 Ultimate 并包含 6GB 及以上顯存。
這項測試結合了實時光線追蹤和傳統(tǒng)渲染技術來測量顯卡性能。場景含有光線追蹤反射、實時全局光照、網(wǎng)格著色器、體積照明、粒子和后處理效果。并且有意思的是,Speed Way測試支持自由探索場景,可查看光照及攝像機設置的改變?nèi)绾斡绊懸曈X效果。
在該項測試中,我們對比了剛剛發(fā)布的RTX 4080顯卡,從1080p分辨率到8K的差距依次為:24%/24%/24%/61%,目前常見的三種分辨率差距相同,但8K這種次時代的超清分辨率,絕對是用顯存來說話了。
另外我們使用3DMARK剛剛更新的DLSS 3進行了相關性能測試。依然是對比之前發(fā)布的RTX 4080,除了8K分辨率下關閉DLSS 3的成績,兩款顯卡的差距一直保持在20%左右。
6 常規(guī)游戲 性能測試由于本次RTX 40系加入了DLSS 3新技術,所以后面會進行單獨測試,這里依然選擇主流的幾款3A大作進行游戲性能對比。
在《地平線5》中,iGame GeForce RTX 4070 Ti Advanced OC相比RTX 3090 Ti的提升分別為:1080p提升40%;2K提升38%;4K提升33%,綜合提升37%。
在《刺客信條:英靈殿》中,iGame GeForce RTX 4070 Ti Advanced OC相比RTX 3090 Ti的提升分別為:1080p提升45%;2K提升34%;4K提升11%,綜合提升30%。
在《無主之地3》中,iGame GeForce RTX 4070 Ti Advanced OC相比RTX 3090 Ti的提升分別為:1080p提升13%;2K相差1%;4K相差12%。
《光明記憶:無限》的光追測試軟件是獨立于游戲的測試工具,比游戲中用到的光線追蹤技術更多,測試條件為“RTX最高/DLSS質(zhì)量”。所以測試幀數(shù)相對較低,但實際游戲配置相當親民。
性能方面,iGame GeForce RTX 4070 Ti Advanced OC相比RTX 3090 Ti的提升分別為:1080p提升10%;2K提升4%;4K相差7%。
在另外一款國產(chǎn)游戲《邊境》的跑分軟件中,情況基本與《光明記憶:無限》相同,測試條件均在“RTX最高/DLSS質(zhì)量”下進行。
在《邊境》中,iGame GeForce RTX 4070 Ti Advanced OC相比RTX 3090 Ti的提升分別為:1080p提升21%;2K提升15%;4K提升2%,綜合提升13%。
在常規(guī)游戲測試中,不難發(fā)現(xiàn)在高分辨率下RTX 3090 Ti優(yōu)勢非常明顯,即便在1080p分辨率下RTX 4070 Ti能夠有很大優(yōu)勢,但憑借24GB大顯存以及1000 GB/s的帶寬,4K分辨率下依然能夠扳回一城。
所以綜合來說,RTX 4070 Ti其實與RTX 3090 Ti算是實力相當,只不過兩款顯卡的“戰(zhàn)場”不同,但如果在用戶普遍使用的1080p和2K分辨率來說,RTX 4070 Ti的優(yōu)勢更大,更不要說它還能夠開啟DLSS 3這一神技。
7 DLSS 3性能測試目前已有超過 35 款游戲和應用宣布即將支持 DLSS 3,其中 15 款游戲已經(jīng)上市。目前已有超過 250 款游戲和應用支持 DLSS,并且還在逐月增加。
其中11月15日已有13款加入DLSS 3的游戲,包括《逆水寒》、《微軟模擬飛行》、《毀滅全人類2:重新探測》、《瘟疫傳說:安魂曲》、《光明記憶:無限》、《暗影火炬城》、《F1 22》、《生死輪回》、《漫威蜘蛛俠:重制版》、《超級人類》。最新發(fā)布的則有《WRC Generations》、《極品飛車:不羈》、《戰(zhàn)錘40K:暗潮》
下面就讓我們來實際測試,擁有全新的DLSS 3的游戲,能達到何種幀率。
本次DLSS 3的測試圖表比較繁瑣,并且增加了1% Low FPS和延遲的測試,普通的FPS好理解,那么這個1% Low FPS是什么意思。
首先,游戲benchmark通常測試的FPS即為,一段時間內(nèi)的游戲平均幀。而1% Low FPS則是將一段時間內(nèi)的幀數(shù)從大到小排列,取最小的1%出來,再對這1%的數(shù)求平均值。
其實簡單來說,這兩個數(shù)值都不能代表我們在游玩時,具體哪一刻的感受,但FPS更注重整體,而1% Low FPS則是從最差的里面求平均,更謹慎一些。
看懂了1% Low FPS,我們再來看這張圖表,在坐標軸左側的為延遲(越低越好),坐標軸右側的均為幀數(shù)(越高越好),并且由于牽扯到正負坐標,所以兩側的值有可能會不同。
本次RTX 4070 Ti定位于2K分辨率下的電競級幀率,在《賽博朋克2077》中的數(shù)據(jù)反映比較真實穩(wěn)定,可以看到在DLSS關的光線追蹤最高的情況下,即便iGame GeForce RTX 4070 Ti Advanced OC顯卡也只有45幀,并且延遲達到了90.3毫秒。而在開啟DLSS 3后,幀數(shù)為119。
對比RTX 3090 Ti來看,雖然在關閉和DLSS 2模式下的分數(shù)幾乎相同,但如果RTX 4070 Ti開啟DLSS 3后,提升幅度達到了57%左右,非常大。
《暗影火炬城》也是本次新增的DLSS 3測試,在開啟光追后對于性能要求明顯提高。在兩款顯卡的對比中,在不開啟DLSS 3的情況下RTX 4070 Ti相較RTX 3090 Ti也幾乎都有著10幀的領先優(yōu)勢。而開啟DLSS 3后,提升幅度為20%左右。
在Unity的測試軟件中,將會自動播放一段即時演算視頻,我們通過FrameView記錄全程。不過由于程序僅提供關閉和開啟DLSS 3的操作,所以我們?nèi)山M分數(shù)。
可以看到在關閉DLSS 3后,即使在2K分辨率下平均FPS也有37幀,延遲也高達119.4ms。而開啟DLSS 3后提升非常大,性能提升達到了127%,演示效果肉眼可見的流暢。
在UE5提供的測試游戲中,方便的給出了DLSS的快捷測試,這里分為DLSS關(超分辨率關+幀生成關+Reflex關);DLSS 2(超分辨率性能+幀生成關+Reflex開);DLSS 3(超分辨率性能+幀生成開+Reflex開)三檔測試。
這組對比中,由于場景受限,我們選擇固定鏡頭測試,所以三組數(shù)據(jù)1% Low幀數(shù)相對較高。
當然針對畫質(zhì)方面,我們也進行了測試,在上圖中我們截取《賽博朋克2077》中的一角,可以看到在兩種DLSS模式下,相較原畫質(zhì)幾乎沒有明顯變化,只在柵欄處的光影效果有所不同,但對于如此大幅度的幀數(shù)提升,這點瑕疵幾乎可以忽略不計。
最后我們也測試了4K分辨率下iGame GeForce RTX 4070 Ti Advanced OC的各項表現(xiàn),以下成績供大家參考。可以看到在開啟DLSS 2和DLSS 3后,依然能夠達到流暢甚至電競標準。
8 生產(chǎn)力工具測試雖然RTX 4070 Ti為徹徹底底的游戲卡,不過我們也對渲染及編碼等內(nèi)容進行了部分軟件的測試。
Blender
Blender是一款專業(yè)的三維渲染軟件,本次推出了固定的benchmark跑分軟件,省去了安裝軟件下載素材的麻煩。這款跑分軟件只需下載好啟動程序,軟件會自動渲染測試monster/junkshop/classroom共三個場景。
上圖為RTX 4080顯卡得分,分別為4850/2239/2333分,平均3141分;下圖為iGame GeForce RTX 4070 Ti Advanced OC顯卡得分,分別為3726/1694/1868分,平均2429分。
兩張顯卡的性能差距在23%左右,與理論分數(shù)差距相當,畢竟80級顯卡在本質(zhì)上同樣是游戲卡,16GB顯存與12GB顯存在這方面的優(yōu)勢有限。
DaVinci_Resolve_18.0.2
下面我們通過達芬奇來對NVIDIA AV1編碼進行實測,對比輸出為H.264編碼。輸出尺寸為4K UHD,質(zhì)量選擇最好,來看看兩組成品有何區(qū)別。
本次的RTX 4070 Ti測試中,我們重新對該素材進行編碼渲染,不過最終的渲染時間同樣是1分50秒左右,與RTX 4080幾乎相同。
由于我們沒有固定碼率,而選擇了相同的畫面質(zhì)量,可以看到在同質(zhì)量下,AV1所生成的視頻碼率更低,幾乎為H.264的三分之一。
而低碼率也就意味著視頻體積越小,該段視頻采用AV1編碼的大小為H.264編碼的四分之一,對于硬盤的空間節(jié)省非常明顯,下面再來看看兩段視頻的畫質(zhì)表現(xiàn)如何。
左AV1 右H264(點擊查看大圖)
我們選擇NVIDIA的ICAT軟件進行分屏對比,首先在較低的縮放倍率來看,兩段視頻在色彩和清晰度上完全相同,而在放大500%后,可以看到噪點情況。使用AV1編碼像素過度更平滑,幾乎沒有很明顯的顆粒感,從而使場景看起來更干凈。
9 溫度及功耗測試功耗測試中,我們選擇FurMark軟件進行拷機測試,并采用GPU-Z檢測溫度,功耗僅計算顯卡自身。
在半小時的拷機中,iGame GeForce RTX 4070 Ti Advanced OC顯卡滿載狀態(tài)下峰值溫度控制在63℃左右,熱點溫度也僅有76℃左右??梢钥吹秸ü臑?00W左右,如果TDP達到100%則為310W左右。
值得一提的是,本次我們在拷機測試中,雖然最大板載功耗為300W左右,TDP達到了97%。但在實際游戲測試中,大部分3A游戲只在240W左右,甚至部分不耗費性能的游戲在200W左右。
這里我們選擇了最耗費性能的《賽博朋克2077》,在4K分辨率下的光追超級預設,記錄了benchmark整個過程的功耗情況。表格中左側為功耗,下方則為當前幀。
可以看到在功耗峰值點,這張iGame GeForce RTX 4070 Ti Advanced OC仍然不到260W,而在整個benchmark測試中的平均功耗為248W。所以在實際的使用過程中,由于不同游戲負載不同,GPU的實際功耗是動態(tài)變化的,類似于FPS隨時間的變化,RTX 40系列很難觸及功耗墻。
10 價格砍半的3090 Ti你買嗎?從整個測試成績來看,本次發(fā)布的顯卡相比RTX 4080確實應該低一個型號,畢竟兩款產(chǎn)品的性能差距在20%左右,如果都叫RTX 4080,只在顯存名稱區(qū)分,對于大部分用戶來說確實有點混淆。
這張卡的亮點部分則是對比RTX 3090 Ti的上一代旗艦,從整個測試來看,在1080p以及2K分辨率,RTX 4070 Ti都有著較大的優(yōu)勢,但在4K分辨率下因顯存瓶頸會被RTX 3090 Ti扳回一城。
但RTX 3090 Ti本身的定位就是生產(chǎn)力工具,24GB的大顯存高帶寬都是助力更好的內(nèi)容創(chuàng)作,4K分辨率下的游戲表現(xiàn)倒是有點無心插柳了。
而RTX 4070 Ti的定位本就是游戲顯卡,12GB顯存即便在4K分辨率下也是完全夠用的,況且作為RTX 40系顯卡,還有DLSS 3這樣的神技加持,在支持DLSS 3的游戲中,相較RTX 3090 Ti的提升非常大。
對于大部分骨灰級游戲玩家來說,2K@144Hz將是未來主流的電競顯示器,而這張iGame GeForce RTX 4070 Ti Advanced OC則是該分辨率和刷新率下的完美游戲顯卡。
除了價格砍半外,游戲的平均功耗只有248W左右,相比RTX 3090 Ti的功耗也幾乎砍半,這對于常年顯卡滿載的3A游戲玩家來說絕對是福音。
本次評測的iGame GeForce RTX 4070 Ti Advanced OC顯卡,更符合現(xiàn)在的極簡審美,在大刀闊斧改變的同時,細節(jié)之處拉滿。尤其是升級后的“引力之環(huán)”,雖然發(fā)光的部位不多,但通過iGame Center調(diào)節(jié)后的視覺暫留效果驚艷??ㄉ碚w質(zhì)感強烈,銀色的外甲在機箱內(nèi)其他燈光的照射下,能夠反射出更迷幻的色彩。
最后價格方面,本次RTX 4070 Ti的官方建議價格為6499元,相比最早宣布時低了一些,與RTX 4080相差3000元。
本次RTX 4070 Ti顯卡的售賣時間比性能解禁時間晚一天,為1月5日的22:00點,有興趣的用戶不妨關注起來。
11 附錄1-NVIDIA Ada Lovelace架構解析Shader Execution Reordering (SER)著色器執(zhí)行重排序
SER主要的作用是提升著色器性能,它可以將效率低下的工作負載,動態(tài)重組為更高效的工作負載。主要針對光線追蹤的性能提升非常大。
簡單地說,GPU在執(zhí)行類似工作的時候效率最高。但隨著光追效果越來越強大,每個場景可能有數(shù)百萬條光線照射在不同材質(zhì)上,而我們知道不同材質(zhì)的反射率,以及反射效果也是不同的。所以這樣就為著色器創(chuàng)建了大量的、發(fā)散的,效率低下的工作負載。
SER則可以將這些雜亂的指令重新分門別類,動態(tài)重組為更高效的工作負載。根據(jù)NVIDIA的說法,SER可將著色器性能最多提升2倍,并將游戲幀率最高提升25%。
舉個簡單的例子,當光線第一次從發(fā)射端到碰撞端是非常有規(guī)律的射線,而碰撞到物體后的二次光追,則會出現(xiàn)大量發(fā)散的、無規(guī)律的反射,這對于光追負載是非常高的。而從圖中便能看到,SER可以將這些指令進行二次排序,以發(fā)揮出著色器的最大性能。
不過好在這么實用的功能并不是RTX 40系的專利,它是一個易于集成的SDK,目前需要游戲開發(fā)商集成在游戲中。另外由于它是一個通用的邏輯,后續(xù)也有可能直接集成在Windows的API中,這樣游戲開發(fā)者就無需特意引用,直接調(diào)用系統(tǒng)API即可。
可以說SER對于手持RTX 20系及以上(能夠開啟光線追蹤)的N卡用戶來說,是極大地福音。畢竟免費提升的光追性能,誰不喜歡呢。
第三代 RT Cores
RT Core的作用在于更快的光線追蹤計算能力,如果說在RTX 30系顯卡中,想要暢享4K高幀率游戲有點吃力,那么RTX 40系顯卡中,將顯得輕而易舉。
在GeForce RTX 4090這張顯卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯卡最快處理能力為78 RT-TFLOPs,足足為2.4倍。并且根據(jù)NVIDIA的官方說法,第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而這只能說明,這張4090并非Ada Lovelace架構的最終形態(tài)。
Opacity Micro-Map Engines
在第三代RT Cores中引入了兩個重要的硬件單元,首先是Opacity Micro-Map Engines,可以理解為微映射透明度引擎,它主要的作用是優(yōu)化光線追蹤渲染,可大幅減輕著色器的工作負擔。
比如樹葉之類的復雜物體,不同的光線都會影響它的表現(xiàn)狀態(tài),以及樹葉之間的光線反彈,所以對于光線追蹤的計算量是巨大的。
不過Opacity Micro-Map Engines可以將光線追蹤特性烘焙到不透明蒙版中,所以那些不規(guī)則形狀和半透明的對象,也就能夠更快更精準的渲染出來,從而極大減輕著色器的工作負擔。
Displaced Micro-Mesh Engines(DMM)
Displaced Micro-Mesh Engines可理解為微網(wǎng)格置換引擎,它構建光線追蹤的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!
DMM由第三代RT core本地處理,與前幾代相比,它只使用基本三角形渲染復雜幾何圖形,極大減少了存儲和處理需求。
具體的工作原理從圖中一目了然,新的DMM可以將面數(shù)非常多的復雜圖形做簡化,創(chuàng)造出簡單的模型,但整體的光線追蹤效果不變。
通過一些模型數(shù)據(jù)我們可以具體看到,新的DMM將模型簡化了多少。原本1100萬三角面的模型,經(jīng)過簡化后,只有15萬左右的微網(wǎng)格,BVH的構建速度提升了8.5倍,小了6.5倍。
而這還不是最夸張的,越復雜的模型往往優(yōu)化的效果越好,在官方展示的這幾組對比示例中,最快可提升大于15倍的速度,容量簡化20倍的模型。
第四代 Tensor Cores
除了光追單元的升級外,第四代張量核心的升級更加恐怖。它采用了新的FP8張量引擎,在GeForce RTX 4090這張顯卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。
注意這里的單位——petaFLOPs。以往的TFLOPs為萬億次浮點運算,而petaFLOPs則為千萬億次浮點運算。
DLSS 3
本次推出的DLSS 3也是RTX 40系一大賣點,從DLSS 2.3直接邁入了DLSS 3版本,也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱為神經(jīng)網(wǎng)絡渲染新時代。
全新的DLSS 3在原有的DLSS超分辨率的基礎上,添加了光學多幀生成技術,以生成全新的幀,而不像原來只能生成像素。
DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術,能夠重建八分之七的像素,極大提高性能。
在GPU受限的游戲中,比如2K分辨率及以上的更高分辨率,DLSS 2能夠?qū)侍岣?倍,DLSS 3則能夠提升4倍。
本次DLSS 3跨越了一個大版本,從想法和原理上也再度升級,完全“猜想”1幀的技術,我們解釋起來簡單,但實施起來需要大量的推理與演算,以及絕對超前的想法。
不過“憑空”生成的1幀,在延遲上絕對要比DLSS 2高。所以此次完整的DLSS 3中,捆綁了NVIDIA Reflex,可以有效幫助減小延遲。
這也不負NVIDIA給它起了個“神經(jīng)網(wǎng)絡渲染新時代”的名號??v觀目前市面上的XeSS、FSR技術,DLSS絕對稱得上“巨人的肩膀”。當然,連年的創(chuàng)新,苦的是手持上一代顯卡的玩家,想體驗DLSS 3的幀生成,目前唯一的辦法就是購入一張RTX 40系顯卡。
New Optical Flow Accelerator
New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。
光流加速器在原本DLSS 2的基礎上,還可以計算兩個連續(xù)幀內(nèi)的光流場,能夠捕捉游戲畫面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素信息。并分別計算運動矢量和光流來獲得精準的陰影重建效果。
以《賽博朋克2077》為例,在第一幀,光流加速器會捕捉到每一個像素中的粒子、反射和光照等信息。并在第二幀中查找匹配的像素區(qū)域,計算幀之間的差值。
如果說原來DLSS 2能夠“猜”出一張圖剩下的像素,那么DLSS 3除了這些,還能夠“猜”出下一幀的畫面。
另外由于DLSS 3的幀生成是在GPU中處理和運行的,所以即使遇到CPU瓶頸的游戲,AI同樣能夠提升幀率。這也是為什么在此次發(fā)布會中說到,DLSS 3能夠突破CPU的限制來提升幀數(shù)。
雙AV1編碼器
本次升級的第八代NVENC編碼器可以說是直播、視頻、后期工作者的極大福音。它首次加入了對AV1編碼的支持,最顯而易見的效果就是直播。
相比傳統(tǒng)的H.264編碼,AV1編碼的效率平均提升了40%,在同碼率下AV1編碼的畫質(zhì)將更好。目前大部分直播的分辨率和清晰度,均受限于平臺規(guī)定的最大比特率。以Twitch限制的8Mbps為例,可以看到在同等帶寬下,同為2K 60幀的畫面,采用AV1編碼的清晰度明顯比H.264更高。
說起直播,OBS相信大家都不陌生,在10月份即將發(fā)布的補丁中,OBS就加入了對NVENC的AV1編碼支持
當然,直播只是我們更容易見到的AV1優(yōu)勢,在視頻工作的所有環(huán)節(jié),AV1編碼都可以帶來極大提升。
所以,如圖所見。NVIDIA已經(jīng)為廣大用戶鋪好了一條完整的生態(tài)鏈,從編碼API、軟件、平臺到播放器,將全面支持AV1編碼。
另外再說一下NVIDIA一直強調(diào)的雙AV1編碼。顧名思義,即部分顯卡內(nèi)搭載了兩個編碼器,它所帶來的效果也是顯而易見的。
首先,根據(jù)官方宣傳的,在4K H.265的導出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的導出速度上更是達到了2.5倍。這部分的提升,大家常用的剪映同樣適用,感興趣的用戶不妨親自體驗一下。
除了導出速度,8K 60幀的視頻錄制在以前簡直難以想象,而雙編碼器的好處就是可以將圖像一分為二,兩個編碼器分別處理7680×2160的圖像信息,最后拼合完整。
關于編碼部分,可能大部分用戶的感受不深,但當有一天,你想錄屏的時候,卻發(fā)現(xiàn)顯卡不支持,才會發(fā)覺它的重要性……
隨著圖像逐漸進入到超清時代,硬件編碼和渲染幾乎已經(jīng)成為不可或缺的幫手。雖然論質(zhì)量,硬件編碼仍不及CPU軟編,但軟編做到了極限畫質(zhì),也要承受時間的無窮長。甚至在一張8K渲染圖中,兩種編碼方式的時間差距就已經(jīng)達到了幾個小時,遑論一段10秒的CG動畫。在不斷進步的硬件編碼中,質(zhì)量和時間也在不斷地被挑戰(zhàn)和刷新。
12 附錄2-Ada Lovelace是誰?Ada Lovelace(1815-1852)是英國數(shù)學家、計算機程序創(chuàng)始人,建立了循環(huán)和子程序概念,被稱為世界上第一位程序員。
Ada從小對數(shù)學有極高天賦,其父稱她為“平行四邊形公主”,后來的合作伙伴Charles Babbage稱她為“數(shù)字女巫”。在19歲時Ada嫁給了自己曾經(jīng)的科學家庭教師,婚后的她對數(shù)學熱情不減。
1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄,寫了很多注記,其中給出了用計算機進行Bernoulli數(shù)求解的詳細說明。由此,Ada被廣泛認為是世界上第一個程序員。
而以她名字命名的語言——ada語言,已經(jīng)成為了美國軍方開發(fā)戰(zhàn)斗機等尖端武器的語言。
從幾行簡短的生平簡介中,不難看出Ada的生命雖然只經(jīng)歷了短暫的37個春秋,但卻足以被后人銘記。
這也是為什么此次NVIDIA RTX 40的先行宣傳中,用到了“以未來敬傳奇”的slogan。返回搜狐,查看更多
責任編輯:
掃描二維碼推送至手機訪問。
版權聲明:本文由財神資訊-領先的體育資訊互動媒體轉載發(fā)布,如需刪除請聯(lián)系。