GCN再戰(zhàn)開(kāi)普勒 通用計(jì)算能力誰(shuí)更強(qiáng)?
泡泡網(wǎng)顯卡頻道6月4日 HD7970與GTX680的較量看似已經(jīng)可以告一段落了,盡管差距不大,但是GTX680的3D游戲性能要?jiǎng)俪鯤D7970一籌。然而,除了3D游戲性能之外,我們看到的是AMD與NVIDIA這一代GPU架構(gòu)上翻天覆地的變化,兩者都拋棄了沿用幾代的GPU架構(gòu)體系設(shè)計(jì),創(chuàng)造了全新圖形產(chǎn)品。更有意思的是,兩者的圖形架構(gòu)與對(duì)方前代架構(gòu)在思路上有很多相似之處,就像是上演了一場(chǎng)大反串。
除了游戲性能之外,GPU架構(gòu)還會(huì)影響到通用計(jì)算能力,隨著GPU運(yùn)算能力的增強(qiáng)以及對(duì)其架構(gòu)特點(diǎn)的深度開(kāi)發(fā),顯卡不僅可以用于渲染3D畫(huà)面,還可以進(jìn)行計(jì)算工作,協(xié)助甚至取代CPU進(jìn)行工作,那么作為GCN與開(kāi)普勒兩大GPU架構(gòu)的代表,HD7970與GTX680在通用計(jì)算方面誰(shuí)更具優(yōu)勢(shì)呢?我們將通過(guò)測(cè)試揭曉答案。
這一代GCN架構(gòu)的完整版HD7970擁有2048個(gè)流處理器,而開(kāi)普勒架構(gòu)的完整版GTX680則擁有1536個(gè)。兩者的紋理單元、ROP數(shù)量一樣,而顯存位寬方面HD7970為384Bit,GTX680則為256Bit,這造成了兩者顯存帶寬上264GB/s與192GB/s之間的差距。
從GPU外圍模塊來(lái)看,AMD的Tahiti和上代Cayman相比變化不大,只是強(qiáng)化了曲面細(xì)分單元,加入了雙異步計(jì)算引擎而已。最大的改變來(lái)自于流處理器部分,原有的SIMD引擎不見(jiàn)了,取而代之的是GCN陣列,那SIMD引擎與GCN陣列有什么本質(zhì)區(qū)別呢?
代號(hào)為T(mén)ahiti的HD7970中,每個(gè)GCN陣列里面包括4個(gè)SIMD單元,每個(gè)SIMD單元內(nèi)部包括16個(gè)1D標(biāo)量運(yùn)算單元。這樣的話(huà)Cayman的SIMD引擎是16x4=64個(gè)流處理器,而Tahiti的GCN陣列是4x16=64個(gè)流處理器,總數(shù)量雖然沒(méi)有變化,但架構(gòu)上是截然相反的設(shè)計(jì)——Tahiti相對(duì)于Cayman來(lái)說(shuō)革命性的改變就是把4D矢量運(yùn)算單元改成了1D標(biāo)量運(yùn)算單元!
但是,GCN架構(gòu)與NVIDIA的CUDA架構(gòu)還是有明顯的區(qū)別,那就是GCN里面包括了4個(gè)SIMD-16單元,標(biāo)量流處理器被硬性拆分為4個(gè)小組,而NVIDIA的SM則沒(méi)有這種設(shè)計(jì),所有流處理器都一視同仁。
而NVIDIA方面,則是不停的對(duì)GPU的GPC、SM、CUDA核心等配比進(jìn)行微調(diào),在微調(diào)的過(guò)程中經(jīng)歷了兩次突變:第一次是GT200到GF100,首次引出了GPC(圖形處理器集群)的概念,GPC數(shù)量減少但SM數(shù)以及流處理器數(shù)量增加不少;第二次就是現(xiàn)在了,從GF100到GK104,SM數(shù)量減少,但流處理器數(shù)量暴增!
改變是為了適應(yīng)形式的變化,解決此前出現(xiàn)的一些問(wèn)題,那NVIDIA的架構(gòu)有什么問(wèn)題呢?此前我們多次提到過(guò),雖然NVIDIA的GPU在效能方面占盡優(yōu)勢(shì),但也不是完美無(wú)缺的——NVIDIA最大的劣勢(shì)就是流處理器數(shù)量較少,導(dǎo)致理論浮點(diǎn)運(yùn)算能力較低。當(dāng)然這只是表面現(xiàn)象,其背后的本質(zhì)則是MIMD(多指令多數(shù)據(jù)流)的架構(gòu),相當(dāng)一部分比例的晶體管消耗在了指令發(fā)射端和控制邏輯單元上面,所以流處理器數(shù)量始終低于對(duì)手。
為了保證GPU性能持續(xù)增長(zhǎng),NVIDIA必須耗費(fèi)更多的晶體管、制造出更大的GPU核心,而這些都需要先進(jìn)的、成熟的半導(dǎo)體制造工藝的支持。NVIDIA之所以在GF100(GTX480)時(shí)代落敗,并非架構(gòu)或者研發(fā)端出了什么問(wèn)題(GF110/GTX580的成功可以證明),而是核心太大導(dǎo)致40nm工藝無(wú)法支撐,良率低下漏電流難以控制,最終導(dǎo)致核心不完整且功耗巨大。如此一來(lái),NVIDIA原有的架構(gòu)嚴(yán)重受制于制造工藝,并非可持續(xù)發(fā)展之路。
為此,NVIDIA將芯片架構(gòu)逐步轉(zhuǎn)向了SIMT的模式,即Single Instruction Multiple Threads(單指令多線程),SIMT有別與AMD的SIMD,SIMT的好處就是無(wú)需開(kāi)發(fā)者費(fèi)力把數(shù)據(jù)湊成合適的矢量長(zhǎng)度,并且SIMT允許每個(gè)線程有不同的分支。 純粹使用SIMD不能并行的執(zhí)行有條件跳轉(zhuǎn)的函數(shù),很顯然條件跳轉(zhuǎn)會(huì)根據(jù)輸入數(shù)據(jù)不同在不同的線程中有不同表現(xiàn),這個(gè)只有利用SIMT才能做到。
SIMT在硬件部分的結(jié)構(gòu)還是要比SIMD復(fù)雜一些,NVIDIA還是更注重效率一些,所以NVIDIA的流處理器數(shù)量還是要比AMD少,但差距已經(jīng)沒(méi)以前那么夸張了。
測(cè)試平臺(tái)使用了Intel Core i7 3770K+Z77主板的組合,搭配4GBx2內(nèi)存、128GB SSD的存儲(chǔ)系統(tǒng),驅(qū)動(dòng)為Catalyst 12.4及ForceWare 301.42。
這次測(cè)試使用了超公版顯卡:HIS HD7970 IceQ X2 Turbo,核心頻率為1050MHz。GTX680則為銘鑫視界風(fēng)靚彩版,頻率為1111MHz。
DirectCompute & OpenCL Benchmark由波蘭人Patryk開(kāi)發(fā),是世界上第一款能夠測(cè)試DirectCompute性能的軟件,后來(lái)也加入了對(duì)OpenCL的支持。它不但能夠同時(shí)支持CPU、GPU OpenCL,而且如果系統(tǒng)內(nèi)有多顯卡,還能為按照計(jì)算能力為它們分配不同比例的工作負(fù)載。
DirectCompute計(jì)算中,A卡一直擁有優(yōu)勢(shì),這一點(diǎn)是N卡無(wú)法比擬的,而HD7970在經(jīng)過(guò)架構(gòu)改變之后,能力更加強(qiáng)大,遠(yuǎn)超N卡,領(lǐng)先優(yōu)勢(shì)甚至達(dá)到了10倍以上。而OpenCL運(yùn)算中,GTX680則稍勝一籌,比HD7970快了20%左右。
ComputeMark由捷克硬件和游戲網(wǎng)站CzechGamer.com的Robert Varga開(kāi)發(fā)完成,技術(shù)上基于Jan Vlietinck的Fluid3D Demo,號(hào)稱(chēng)是“第一個(gè)百分之百的DX11 Compute Shader基準(zhǔn)測(cè)試工具”,一般情況下能夠調(diào)動(dòng)99%的GPU資源,CPU占用率只有0-1%,因此在考察GPU通用計(jì)算性能的同時(shí),也能考驗(yàn)顯卡的穩(wěn)定性,對(duì)超頻亦有所幫助,另外測(cè)試的時(shí)候還可以自行選擇運(yùn)行時(shí)間。
在純粹的DX11渲染運(yùn)算測(cè)試中,HD7970性能領(lǐng)先GTX680達(dá)到30%左右,而這還是在GTX680頻率擁有優(yōu)勢(shì)的前提之下的結(jié)果。可以見(jiàn)HD7970在運(yùn)算能力方面擁有的優(yōu)勢(shì)。
GPU Caps Viewer是和GPU-Z類(lèi)似的一款顯卡診斷識(shí)別工具,二者在顯卡的檢測(cè)識(shí)別方面可以說(shuō)各有千秋。GPU-Z對(duì)顯卡的功能規(guī)格顯示的非常詳細(xì),而GPU Caps Viewer除了對(duì)顯卡的基本規(guī)格能夠完全正確識(shí)別外,還專(zhuān)門(mén)提供一個(gè)有關(guān)顯卡OPENGL能力檢測(cè)測(cè)試的界面,用戶(hù)可以在此對(duì)他們顯卡的OPENGL能力有一個(gè)比較全面的了解。 可用于購(gòu)機(jī)時(shí)的測(cè)試。另外在GPU Caps Viewer還提供了一個(gè)不同渲染方式下的顯卡OPENGL能力Demo演示功能,可以讓玩家對(duì)自己的顯卡有一部分大致的了解。
由于目前尚不支持GTX680,因此測(cè)試暫時(shí)沒(méi)有辦法對(duì)比。
LuxMark是一款OpenCL測(cè)試工具,由Jromang最早于2009年發(fā)開(kāi)?;陂_(kāi)放式物理渲染引擎LuxRender,可以支持常規(guī)畫(huà)圖,支持基于OpenCL模式的GPU加速,可以在AMD和NVIDIA顯卡上完美運(yùn)行,并支持多級(jí)動(dòng)態(tài)模糊。在流行的圖形圖像渲染設(shè)計(jì)軟件Blender, 3ds Max, Cinema 4D, DAZ Studio, Poser, SketchUp以及Softimage中均有使用。
LuxMark測(cè)試中,HD7970的渲染性能展示出了壓倒性的勝利,分?jǐn)?shù)領(lǐng)先幅度再次達(dá)到2倍以上。
SiSoftware Sandra是一套功能強(qiáng)大的系統(tǒng)分析評(píng)比工具,擁有超過(guò)30種以上的分析與測(cè)試模組,還有CPU、Drives、CD-ROM/DVD、Memory 的Benchmark工具,它還可將分析結(jié)果報(bào)告列表存盤(pán)。SiSoft Sandra除了可以提供詳細(xì)的硬件信息外,還可以做產(chǎn)品的性能對(duì)比,提供性能改進(jìn)建議。
Sandra 2012的GPU通用測(cè)試部分,HD7970再次取得較大優(yōu)勢(shì)。
HD7970的綜合游戲性能稍遜于GTX680,這是一個(gè)客觀的事實(shí),但是其架構(gòu)特性決定了其計(jì)算能力遠(yuǎn)遠(yuǎn)超過(guò)GTX680,在有良好應(yīng)用的支持下,HD7970會(huì)發(fā)揮出它的價(jià)值,隨著GPU加速應(yīng)用的日漸普及,GCN架構(gòu)必將綻放出更璀璨的光芒?!?
關(guān)注我們
