国产成人福利在线视频播放下载,成人无码www免费视频在线看,放荡的美妇在线播放,大地资源网最新更新,国产成人精品日本亚洲网站

泡泡網(wǎng)顯卡頻道 PCPOP首頁(yè)      /      顯卡     /      評(píng)測(cè)    /    正文

流處理器緣何差6倍!A/N GPU架構(gòu)解析

    泡泡網(wǎng)顯卡頻道3月1日 經(jīng)常有網(wǎng)友問(wèn)這樣的問(wèn)題:“為什么ATI顯卡的流處理器要比NVIDIA多那么多,而性能卻差不多呢?”這個(gè)問(wèn)題往簡(jiǎn)單里說(shuō)就是它們的算法不同,當(dāng)然這是不負(fù)責(zé)任的說(shuō)法。往復(fù)雜里說(shuō)那么三言?xún)烧Z(yǔ)就講不清楚了,因?yàn)樯婕暗诫p方GPU的核心架構(gòu)以及截然相反的設(shè)計(jì)理念。

    在DX9時(shí)代,大家都是通過(guò)“(像素)管線”來(lái)衡量顯卡的性能等級(jí),而到了DX10時(shí)代,統(tǒng)一渲染架構(gòu)的引入使得顯卡不再區(qū)分“像素”和“頂點(diǎn)”,因此“管線”這種說(shuō)法逐漸淡出了大家的視野,取而代之的是全新的“流處理器”,“流處理器”的數(shù)量直接影響顯卡的性能。

    從DX10到DX10.1再到DX11,轉(zhuǎn)眼間顯卡已經(jīng)發(fā)展到了第四代,但實(shí)際上不管ATI還是NVIDIA,它們的新一代顯卡都是在最早的DX10顯卡架構(gòu)基礎(chǔ)上不斷優(yōu)化、改進(jìn)、擴(kuò)充而來(lái)的。換句話說(shuō),即便是到了DX11時(shí)代,NVIDIA與ATI的性能大戰(zhàn)依然是G80與R600架構(gòu)的延續(xù)。

    那么,我們就很有必要對(duì)雙方的GPU圖形架構(gòu)進(jìn)行深入研究,詳細(xì)分析各自的優(yōu)勢(shì)與劣勢(shì),并且順便解答網(wǎng)友心中的疑惑:為什么A卡的流處理器要比N卡多很多?

● “管線”的由來(lái)——1個(gè)時(shí)鐘周期4次運(yùn)算

    在圖形處理中,最常見(jiàn)的像素都是由RGB(紅綠藍(lán))三種顏色構(gòu)成的,加上它們共有的信息說(shuō)明(Alpha),總共是4個(gè)通道。而頂點(diǎn)數(shù)據(jù)一般是由XYZW四個(gè)坐標(biāo)構(gòu)成,這樣也是4個(gè)通道。在3D圖形進(jìn)行渲染時(shí),其實(shí)就是改變RGBA四個(gè)通道或者XYZW四個(gè)坐標(biāo)的數(shù)值。為了一次性處理1個(gè)完整的像素渲染或幾何轉(zhuǎn)換,GPU的像素著色單元和頂點(diǎn)著色單元從一開(kāi)始就被設(shè)計(jì)成為同時(shí)具備4次運(yùn)算能力的算數(shù)邏輯運(yùn)算器(ALU)。

完美DX10!ATI新王者HD2900XT權(quán)威評(píng)測(cè)

傳統(tǒng)像素管線/Shader示意圖

    數(shù)據(jù)的基本單元是Scalar(標(biāo)量),就是指一個(gè)單獨(dú)的值,GPU的ALU進(jìn)行一次這種變量操作,被稱(chēng)做1D標(biāo)量。由于傳統(tǒng)GPU的ALU在一個(gè)時(shí)鐘周期可以同時(shí)執(zhí)行4次這樣的并行運(yùn)算,所以ALU的操作被稱(chēng)做4D Vector(矢量)操作。

SIMD架構(gòu)示意圖

    一個(gè)矢量就是N個(gè)標(biāo)量,一般來(lái)說(shuō)絕大多數(shù)圖形指令中N=4。所以,GPU的ALU指令發(fā)射端只有一個(gè),但卻可以同時(shí)運(yùn)算4個(gè)通道的數(shù)據(jù),這就是SIMD(Single Instruction Multiple Data,單指令多數(shù)據(jù)流)架構(gòu)。

● “管線”弊端越發(fā)明顯,引入混合型設(shè)計(jì)

    顯然,SIMD架構(gòu)能夠有效提升GPU的矢量處理性能,由于頂點(diǎn)和像素的絕大部分運(yùn)算都是4D Vector,它只需要一個(gè)指令端口就能在單周期內(nèi)完成4倍運(yùn)算量,效率達(dá)到100%。但是4D SIMD架構(gòu)一旦遇到1D標(biāo)量指令時(shí),效率就會(huì)下降到原來(lái)的1/4,3/4的模塊被完全浪費(fèi)。為了緩解這個(gè)問(wèn)題,ATI和NVIDIA在進(jìn)入DX9時(shí)代后相繼采用混合型設(shè)計(jì),比如R300就采用了3D+1D的架構(gòu),允許Co-issue操作(矢量指令和標(biāo)量指令可以并行執(zhí)行),NV40以后的GPU支持2D+2D和3D+1D兩種模式,雖然很大程度上緩解了標(biāo)量指令執(zhí)行效率低下的問(wèn)題,但依然無(wú)法最大限度的發(fā)揮ALU運(yùn)算能力,尤其是一旦遇上分支預(yù)測(cè)的情況,SIMD在矢量處理方面高效能的優(yōu)勢(shì)將會(huì)被損失殆盡。

完美DX10!ATI新王者HD2900XT權(quán)威評(píng)測(cè)

改進(jìn)的管線/Shader結(jié)構(gòu)

    可以這么理解,傳統(tǒng)的1條管線里面包含了4個(gè)基本運(yùn)算單元,在早期這種架構(gòu)的執(zhí)行效率還是很高的,因?yàn)榇蠖鄶?shù)程序指令都是4D的。但由于API和游戲復(fù)雜Shader指令的發(fā)展,4D指令所占比重開(kāi)始下降,3D/2D/1D等混合指令頻繁出現(xiàn),所以傳統(tǒng)的管線式架構(gòu)效率越來(lái)越低!

    到了DX10時(shí)代,不再區(qū)分像素單元和頂點(diǎn)單元,還加入了新的幾何著色單元,這樣GPU的Shader單元不僅要處理像素和頂點(diǎn)操作,還要負(fù)責(zé)幾何等其它操作,混合型指令所占比重越來(lái)越大,必須放棄傳統(tǒng)的管線式架構(gòu)。

G80的標(biāo)量流處理器架構(gòu)

    因此,NVIDIA從G80開(kāi)始架構(gòu)作了變化,把原來(lái)的4D著色單元徹底打散,流處理器不再針對(duì)矢量設(shè)計(jì),而是統(tǒng)統(tǒng)改成了標(biāo)量運(yùn)算單元。每一個(gè)ALU都有自己的專(zhuān)屬指令發(fā)射器,初代產(chǎn)品擁有128個(gè)這樣的1D運(yùn)算器,稱(chēng)之為流處理器。這些流處理器可以按照動(dòng)態(tài)流控制智能的執(zhí)行各種4D/3D/2D/1D指令,無(wú)論什么類(lèi)型的指令執(zhí)行效率都能接近于100%!

07圖形奧德賽!G92核心8800GT權(quán)威評(píng)測(cè)

G8X家族核心架構(gòu)圖

    如此一來(lái),對(duì)于依然占據(jù)主流的4D矢量操作來(lái)說(shuō),G80需要讓1個(gè)流處理器在4個(gè)周期內(nèi)才能完成,或者是調(diào)動(dòng)4個(gè)流處理器在1個(gè)周期內(nèi)完成,那么G80的執(zhí)行效率豈不是很低?沒(méi)錯(cuò),所以NVIDIA大幅提升了流處理器工作頻率(兩倍于核心頻率),擴(kuò)充了流處理器的規(guī)模(128個(gè)),這樣G80的128個(gè)標(biāo)量流處理器的運(yùn)算能力就基本相當(dāng)于傳統(tǒng)的64個(gè)(128×2/4)4D矢量ALU。

07圖形奧德賽!G92核心8800GT權(quán)威評(píng)測(cè)

G8X/G9X系列:8個(gè)流處理器為一組,2x8=16個(gè)為一簇

    當(dāng)然這只是在處理4D指令時(shí)的情形,隨著圖形畫(huà)面越來(lái)越復(fù)雜,1D、2D、3D指令所占比例正在逐年增多,而G80在遇到這種指令時(shí)可說(shuō)是如魚(yú)得水,與4D一樣不會(huì)有任何效能損失,指令轉(zhuǎn)換效率高并且對(duì)指令的適應(yīng)性非常好,這樣G80就將GPU Shader執(zhí)行效率提升到了新的境界!

MIMD架構(gòu)示意圖

    與傳統(tǒng)的SIMD架構(gòu)不同,G80的這種標(biāo)量流處理器被稱(chēng)為MIMD(Multiple Instruction Multiple Data,多指令多數(shù)據(jù)流)架構(gòu)。G80的架構(gòu)聽(tīng)起來(lái)很完美,但也存在不可忽視的缺點(diǎn):根據(jù)前面的分析可以得知,4個(gè)1D標(biāo)量ALU和1個(gè)4D矢量ALU的運(yùn)算能力是相當(dāng)?shù)模乔罢咝枰?個(gè)指令發(fā)射端和4個(gè)控制單元,而后者只需要1個(gè),如此一來(lái)MIMD架構(gòu)所占用的晶體管數(shù)將遠(yuǎn)大于SIMD架構(gòu)!

    G80的128個(gè)1D標(biāo)量ALU聽(tīng)起來(lái)規(guī)模很龐大,而且將4D矢量指令轉(zhuǎn)換為4個(gè)1D標(biāo)量指令時(shí)的效率也能達(dá)到100%,但實(shí)際上如果用相同的晶體管規(guī)模,可以設(shè)計(jì)出更加龐大的ALU運(yùn)算器,這就是R600的流處理器架構(gòu)。

● ATI改進(jìn)傳統(tǒng)架構(gòu),制造龐大規(guī)模的流處理器

    與革命性的G80架構(gòu)不同,R600身上有很多傳統(tǒng)GPU的影子,其Stream Processing Units很像上代的Shader Units,它依然是傳統(tǒng)的SIMD架構(gòu)。

完美DX10!ATI新王者HD2900XT權(quán)威評(píng)測(cè)

    R600擁有4個(gè)SIMD陣列,每個(gè)SIMD陣列包括了16個(gè)Stream Processing Units,這樣總共就是64個(gè),但不能簡(jiǎn)單地認(rèn)為它擁有64個(gè)流處理器,因?yàn)镽600的每個(gè)Units內(nèi)部包含了5個(gè)ALU:

完美DX10!ATI新王者HD2900XT權(quán)威評(píng)測(cè)

    我們來(lái)仔細(xì)看看R600的流處理器架構(gòu):Branch Execution Unit(分歧執(zhí)行單元)就是指令發(fā)射和控制器,它獲得指令包后將會(huì)安排至它管轄下5個(gè)ALU,進(jìn)行流控制和條件運(yùn)算。General Purpose Registers(通用寄存器)存儲(chǔ)輸入數(shù)據(jù)、臨時(shí)數(shù)值和輸出數(shù)據(jù),并不存放指令。

    由于內(nèi)部的5個(gè)1D ALU共享同一個(gè)指令發(fā)射端口,因此宏觀上R600應(yīng)該算是SIMD(單指令多數(shù)據(jù)流)的5D矢量架構(gòu)。但是R600內(nèi)部的這5個(gè)ALU與傳統(tǒng)GPU的ALU有所不同,它們是各自獨(dú)立能夠處理任意組合的1D/2D/3D/4D/5D指令,完美支持Co-issue(矢量指令和標(biāo)量指令并行執(zhí)行),因此微觀上可以將其稱(chēng)為5D Superscalar超標(biāo)量架構(gòu)。

完美DX10!ATI新王者HD2900XT權(quán)威評(píng)測(cè)

    通過(guò)上圖就可以清楚的看到,單指令多數(shù)據(jù)流的超標(biāo)量架構(gòu)可以執(zhí)行任意組合形式的混合指令,在一個(gè)Stream Processing Units內(nèi)部的5個(gè)ALU可以在單時(shí)鐘周期內(nèi)進(jìn)行5次MAD(Multiply-Add,乘加)運(yùn)算,其中比較“胖”的ALU除了MAD之外還能執(zhí)行一些函數(shù)(SIN、COS、LOG、EXP等)運(yùn)算,在特殊條件下提高運(yùn)算效率!

    現(xiàn)在我們就知道R600確實(shí)擁有64x5=320個(gè)流處理器。R600的流處理器之所以能比G80多好幾倍就是得益于SIMD架構(gòu),可以用較少的晶體管堆積出龐大規(guī)模的流處理器。但是在指令執(zhí)行效率方面,SIMD架構(gòu)非常依賴(lài)于將離散指令重新打包組合的算法和效率,正所謂有得必有失。

    通過(guò)前面的分析我們可以初步得出這樣的結(jié)論:G80的MIMD標(biāo)量架構(gòu)需要占用額外的晶體管數(shù),在流處理器數(shù)量和理論運(yùn)算能力方面比較吃虧,但卻能保證超高的執(zhí)行效率;而R600的SIMD超標(biāo)量架構(gòu)可以用較少的晶體管數(shù)獲得很多的流處理器數(shù)量和理論運(yùn)算能力,但執(zhí)行效率方面要依具體情況而定。

    G80和R600都是不計(jì)成本的作品,成本高、功耗發(fā)熱大,隨著新工藝逐漸走向成熟,雙方不約而同的推出了改良版的核心,使得新高端產(chǎn)品的以大規(guī)模量產(chǎn),這就誕生了G92和RV670核心,這兩顆GPU雖然都擁有眾多誘人的新特性,但實(shí)際上核心架構(gòu)方面沒(méi)有任何的變化。

G92相對(duì)于G80的改進(jìn):

1. 制造工藝由90nm升級(jí)至65nm;

2. 新工藝集成度更高,G92的GPU核心部分與2D輸出模塊(NVIO)合二為一,是單芯片設(shè)計(jì);

3. PCI-E控制器升級(jí)支持2.0版本,帶寬倍增;

4. 高清視頻解碼引擎由VP1升級(jí)至VP2,支持MPEG2和H.264的完全硬解碼,VC-1部分硬解碼;

5. 加入HDCP支持和HDMI輸出支持;

6. 顯存控制器由384bit降至256bit,這是控制成本的需要。由于顯存控制器綁定光柵單元(ROP),因此G92的光柵單元只有16個(gè),而G80是24個(gè);

7. 紋理尋址單元數(shù)量加倍,紋理采樣效率提升。

    在以上諸多改進(jìn)之中,只有這一項(xiàng)才是設(shè)計(jì)到核心架構(gòu)的,因此這里重點(diǎn)介紹:

07圖形奧德賽!G92核心8800GT權(quán)威評(píng)測(cè)

G80的流處理器結(jié)構(gòu)

G92的流處理器結(jié)構(gòu)

    上面兩幅架構(gòu)圖清楚的體現(xiàn)出了G80和G92的差異。NVIDIA GPU的流處理器簇和紋理單元還有一級(jí)緩存是綁定在一起的,G80的每簇內(nèi)建了8個(gè)紋理過(guò)濾單元(Texture Filtering Unit)和4個(gè)紋理尋址單元(Texture Addressing Unit),總共數(shù)目就是64個(gè)TFU和32個(gè)TAU。而G92則提升至每組內(nèi)建8個(gè)TFU和8個(gè)TAU,總共64個(gè)TFU和64個(gè)TAU,也就是紋理尋址單元數(shù)量加倍。

    更多的TAU可令單一周期處理更多的紋理采樣操作,部分情況下紋理處理器效率提升一倍!雖然DX9C時(shí)代反復(fù)強(qiáng)調(diào)高像素/紋理比例,但DX10時(shí)代引入了更多的紋理操作,并且SM4.0支持更復(fù)雜的紋理陣列,以便讓物體表面擁有更豐富的細(xì)節(jié),并且在超高分辨率下也不至于失真,但也對(duì)紋理操作提出了較高的要求,NVIDIA此舉意在提升Call of Juarez、Crysis這種高精度游戲中的效率。

    事實(shí)上,除了G80核心之外,G84、G86、G92、G96等所有衍生出來(lái)的小核心都改進(jìn)了紋理單元設(shè)計(jì),也就是說(shuō)從8600GT開(kāi)始起紋理尋址單元的數(shù)量就與紋理過(guò)濾單元相等了,只是中低端顯卡的變化未能引起大家的重視。

RV670相對(duì)于R600的改進(jìn):

1. 制造工藝由80nm升級(jí)至55nm;

2. PCI-E控制器升級(jí)支持2.0版本,帶寬倍增;

3. 高清解碼引擎由原來(lái)的Shader解碼升級(jí)為UVD引擎,支持H.264和VC-1的完全硬解碼;

4. 顯存控制器由512bit降至256bit,這是控制成本的需要,而且以R600和RV670的運(yùn)算能力其實(shí)不需要太高的顯存位寬;

5. 支持PowerPlay節(jié)能技術(shù),待機(jī)功耗很低;

6. API升級(jí)至DX10.1;

    雖然API升級(jí)了,但實(shí)際上只不過(guò)是加入了新的Shader Model 4.1指令集而已,流處理器架構(gòu)方面沒(méi)有變化,甚至光柵單元和紋理單元都沒(méi)有任何改動(dòng)。

    由于R600/RV670的架構(gòu)是顯存控制器并沒(méi)有綁定光柵單元,雖然RV670的顯存位寬減少了,但并沒(méi)有造成太多的性能損失,反而由于頻率的提升得以反超。因此G92相比G80是性能下降了,而RV670相比R600是有所提升,但最終的結(jié)果RV670和G92的差距依然很大。

    可以看出,G92和RV670在技術(shù)方面的改進(jìn)其實(shí)都是差不多,真正最關(guān)鍵的(流處理器)核心架構(gòu)方面其實(shí)沒(méi)有任何變化。

    G92雖然有著眾多G80所不具備的新特性,但本質(zhì)上來(lái)講它是G80削減成本的產(chǎn)物。而NVIDIA真正第二代DX10核心應(yīng)該是GT200才對(duì),下面我們就看看GT200相對(duì)于G80的改進(jìn)。

GT200架構(gòu)的變化

    眾所周知,GT200最大的變化就是擁有240個(gè)流處理器,而且顯存位寬高達(dá)512bit,當(dāng)然這只是表象,真正核心架構(gòu)方面的改進(jìn)如下:

開(kāi)創(chuàng)視覺(jué)計(jì)算帝國(guó)GTX280/260權(quán)威評(píng)測(cè)

    G80/G92擁有128個(gè)流處理器,這些流處理器分為8組TPC(線程處理器簇),每組16個(gè)SP(流處理器),這16個(gè)SP又分為兩組SM(多核流處理器),SM是不可拆分的最小單元,是8核心設(shè)計(jì)。

    GTX200將TPC數(shù)量從8個(gè)擴(kuò)充至10個(gè),而且在每個(gè)TPC內(nèi)部,SM從2個(gè)增加到3個(gè),SM依然是8核心設(shè)計(jì)。如此一來(lái),GTX200核心的流處理器數(shù)量就是,8×3×10=240個(gè),幾乎是G80的兩倍,但卻不是256個(gè)。

    紋理單元部分,GTX200的每個(gè)TPC內(nèi)部擁有8個(gè)TF,這樣總共就是8×10=80個(gè)紋理單元。G80/G92的流處理器與紋理單元的比率是128:64=2:1,而GT200的流處理器與紋理單元的比率是240:80=3:1,正是GT200微架構(gòu)方面的變化造成了這一結(jié)果。

● GTX200核心微架構(gòu)改進(jìn)

    GTX200核心在流處理器、紋理單元數(shù)量上的擴(kuò)充是很容易理解的,其實(shí)除了擴(kuò)充規(guī)模之外,在架構(gòu)的細(xì)微之處還有不少的改進(jìn),這些都有助于提高新核心在未來(lái)游戲或通用計(jì)算中的執(zhí)行效能:

1. 每個(gè)SM可執(zhí)行線程上限提升:G80/G92核心每個(gè)SM(即不可拆分的8核心流處理器)最多可執(zhí)行768條線程,而GTX200核心的每個(gè)SM提升至1024條,而且GTX200擁有更多的SM,芯片實(shí)力達(dá)到原來(lái)的2.5倍!

開(kāi)創(chuàng)視覺(jué)計(jì)算帝國(guó)GTX280/260權(quán)威評(píng)測(cè)

2. 每個(gè)SM的指令寄存器翻倍:GTX200與G80核心在SM結(jié)構(gòu)上基本相同的,但功能有所提升,在執(zhí)行線程數(shù)增多的同時(shí),NVIDIA還將每個(gè)SM中間的Local Memory容量翻倍(從16K到32K)。Local Memory用于存儲(chǔ)SM即將執(zhí)行的上千條指令,容量增大意味著可以存儲(chǔ)更多的指令、超長(zhǎng)的指令、或是各種復(fù)雜的混合式指令,這對(duì)于提高SM的執(zhí)行效能大有裨益。

開(kāi)創(chuàng)視覺(jué)計(jì)算帝國(guó)GTX280/260權(quán)威評(píng)測(cè)
雙倍寄存器的優(yōu)勢(shì):代表DX10性能的3DMarkVantage得分直接提升15%

    當(dāng)前和未來(lái)的DX10游戲,越來(lái)越多的使用復(fù)雜的混合式Shader指令,一旦排隊(duì)中的超長(zhǎng)指令溢出或者在N個(gè)周期內(nèi)都排不上隊(duì),那么就會(huì)造成效率下降的情況,此時(shí)雙倍寄存器容量的優(yōu)勢(shì)就體現(xiàn)出來(lái)了。由于Local Memory并不會(huì)消耗太多晶體管,因此將其容量翻倍是很合算的。

    顯然,RV670未能從R600失敗的陰影中走出來(lái),而RV770則是AMD的揚(yáng)眉吐氣之作,這顆相對(duì)GT200來(lái)說(shuō)非常小巧的核心擁有不可思議的實(shí)力,現(xiàn)在我們就來(lái)回顧一下它的核心架構(gòu)細(xì)節(jié)。

RV770架構(gòu)的變化

    RV770的核心架構(gòu),它源自于R600,但青出于藍(lán)而勝于藍(lán),AMD對(duì)核心幾乎所有的模塊都進(jìn)行了改進(jìn),而且規(guī)模和數(shù)量方面大大加強(qiáng)。HD4850/4870令人驚訝的性能表現(xiàn)就是源自于核心架構(gòu)。

800SP怒吼!RV770核心HD4850全面評(píng)測(cè)

    首先來(lái)看看流處理器部分:RV670/R600是4組SIMD,每組16個(gè)Shader,每個(gè)Shader 5個(gè)流處理器;RV770是10組SIMD,每組16個(gè)Shader,每個(gè)Shader 5個(gè)流處理器,也就是說(shuō)流處理器部分只是單純的擴(kuò)充規(guī)模而已,并沒(méi)有任何改進(jìn)

GDDR5的咆哮!AMD旗艦HD4870權(quán)威評(píng)測(cè)

    紋理單元和光柵單元部分,和流處理器一樣都是數(shù)量翻了2.5倍,但值得一提的是,抗鋸齒算法已經(jīng)由R600/RV670的流處理器部分轉(zhuǎn)移至光柵單元部分,因此RV770的AA效率大幅提高,一舉超越了所有N卡重現(xiàn)X1000時(shí)代的輝煌,這也就是RV770表現(xiàn)令人驚異的主要原因。

GDDR5的咆哮!AMD旗艦HD4870權(quán)威評(píng)測(cè)

    在紋理單元與顯存控制器之間設(shè)有一級(jí)緩存,RV770核心相比RV670,L1 TC容量翻倍,再加上數(shù)量同比增加2.5倍,因此RV770的總L1容量達(dá)到了RV670/R600的五倍之多!

    另外,RV770還放棄了使用多年的環(huán)形總線,估計(jì)是因?yàn)楦哳l率下數(shù)據(jù)存取命中率的問(wèn)題,回歸了交叉總線設(shè)計(jì),有效提高了顯存利用率,并節(jié)約了顯存帶寬。

    總的來(lái)說(shuō),雖然流處理器部分沒(méi)有做改動(dòng),但RV770的整體架構(gòu)相對(duì)于RV670可以說(shuō)是脫胎換骨,這也是它大獲成功的奧秘所在!

    在大獲成功的RV770基礎(chǔ)上,AMD率先發(fā)布了首顆DX11圖形核心——RV870,當(dāng)然現(xiàn)在AMD已經(jīng)不使用數(shù)字來(lái)命名GPU核心的,它的真正代號(hào)是Cypress。

Cypres架構(gòu)的變化

    除了顯存位寬維持256bit不變之外,Cypress的其它所有規(guī)格都正好是RV770的兩倍,而且在流處理器部分可以看作是雙核心的設(shè)計(jì),幾乎就是并排放置了兩顆RV770核心:

    為什么要使用這種雙核心的設(shè)計(jì)呢?因?yàn)楫?dāng)流處理器擴(kuò)充至1600個(gè)這樣的恐怖規(guī)模時(shí),不僅芯片設(shè)計(jì)制造的難度非常高,而且相應(yīng)的緩存和控制模塊難以管理協(xié)調(diào)如此眾多的流處理器,因此一分為二的做法效率將會(huì)更高。

    Cypress這樣的結(jié)構(gòu)與雙核CPU十分相似,兩顆“核心”各自獨(dú)立,獨(dú)享L1、共享L2和內(nèi)存控制器等其他總線模塊,而兩顆“核心”之間則通過(guò)專(zhuān)用的數(shù)據(jù)共享及請(qǐng)求總線通信。

    為了配合這兩顆“核心”眾多流處理器的工作,裝配引擎內(nèi)部設(shè)計(jì)有雙倍的Rasterizer(光柵器)和Hierarchial-Z(多級(jí)Z緩沖模塊),這是與RV770最大的不同。

    在流處理器部分,RV870相對(duì)于RV770改進(jìn)有限,只是加入了DX11新增的位操作類(lèi)指令,并優(yōu)化了Sum of Absolute Differences(SAD,誤差絕對(duì)值求和)算法,指令執(zhí)行速度提升12倍,此項(xiàng)指令可以在OpenCL底層執(zhí)行。SAD算法應(yīng)用最多的就是H.264/AVC編碼的移動(dòng)向量估算部分(約占整個(gè)AVC編碼總時(shí)間的80%),如此一來(lái)使用RV870做視頻編碼類(lèi)通用計(jì)算時(shí),性能會(huì)大幅提升!

    基本上,除了新增DirectX 11支持之外,Cypress相對(duì)于RV770在架構(gòu)方面的改進(jìn)非常有限。HD5000系列主要是憑借40nm和新一代GDDR5顯存在功耗控制方面做的非常完美,雖然官方稱(chēng)抗鋸齒效能大幅改進(jìn),但通過(guò)我們實(shí)際測(cè)試來(lái)看相對(duì)RV770提升非常小,因?yàn)镽V770做的已經(jīng)非常優(yōu)秀了,另外HD5000系列的Eyefinity多屏顯示器技術(shù)是一大賣(mài)點(diǎn)。

    Cypress已經(jīng)發(fā)布了半年之久,而NVIDIA方面的GF100依然是猶抱琵琶半遮面。GF100核心之所以延期這么久,一方面是因?yàn)镹VIDIA遭遇了40nm新制程良率不足的困擾,另一方面GF100在核心架構(gòu)方面的改進(jìn)非常巨大,NVIDIA力圖打造一顆在DX11和GPU計(jì)算方面都趨于完美的核心。

GF100架構(gòu)改進(jìn)要點(diǎn)預(yù)覽

    如果說(shuō)Cypress是“雙核心”設(shè)計(jì)的話,那么GF100的流處理器部分就是“四核心”設(shè)計(jì),因?yàn)槠鋜aster units(光柵化引擎)是以GPC(線程處理器簇)為單位的,一式四份。而raster units的功能就是以流水線的方式執(zhí)行邊緣/三角形設(shè)定(Edge/Triangle Setup)、光柵化(Rasterization)、Z軸壓縮(Z-Culling)等操作。上頁(yè)我們介紹過(guò)Cypress的Rasterizer和Hierarchial-Z雙份的,而GF100則是四份的,雖然命名有所不同但功能是相同的。

    另外,GF100擁有更多的PolyMorph(多形體引擎),是以SM(流處理器)為單位分配的,擁有多達(dá)16組。多形體引擎則要負(fù)責(zé)頂點(diǎn)拾取(Vertex Fetch)、細(xì)分曲面(Tessellation)、視口轉(zhuǎn)換(Viewport Transform)、屬性設(shè)定(Attribute Setup)、流輸出(Stream Output)等五個(gè)方面的處理工作,DX11中最大的變化之一細(xì)分曲面單元(Tessellator)就在這里,因此GF100的理論Tessellation性能將會(huì)遠(yuǎn)超Cypress,因?yàn)镃ypress只有一個(gè)Tessellator單元。

    至于流處理器核心部分,則是經(jīng)過(guò)了重新設(shè)計(jì),與GT200/G92/G80相比是煥然一新,因此NVIDIA將其稱(chēng)為CUDA核心而不再是流處理器。

    GF100的512個(gè)CUDA核心都符合IEEE 754-2008浮點(diǎn)算法(Cypress也是如此)和完整的32位整數(shù)算法,而后者在過(guò)去只是模擬的,事實(shí)上僅能計(jì)算24-bit整數(shù)乘法;同時(shí)全面引入的還有積和熔加運(yùn)算(Fused Multiply-Add/FMA)。此外雙精度浮點(diǎn)(FP64)性能大大提升,峰值執(zhí)行率可以達(dá)到單精度浮點(diǎn)(FP32)的1/2,而過(guò)去只有1/8,AMD從R600開(kāi)始到現(xiàn)在的Cypress核心都是1/5,沒(méi)有做任何變化。

    至于顯存控制器方面的改進(jìn),還有顯存ECC等外圍功能就不多做介紹了。總而言之,GF100核心是GPU自從進(jìn)入DX10時(shí)代以來(lái),架構(gòu)變化最大的一次,在GPU圖形架構(gòu)和并行計(jì)算架構(gòu)方面都有了革命性的進(jìn)步,因此備受玩家和業(yè)界期待。現(xiàn)在據(jù)可靠消息表明GF100架構(gòu)的GTX480顯卡將在本月26日準(zhǔn)時(shí)發(fā)布,屆時(shí)我們將會(huì)為大家獻(xiàn)上全方位的架構(gòu)分析及性能評(píng)測(cè),讓我們一同期待吧!■<

1人已贊

關(guān)注我們

泡泡網(wǎng)

手機(jī)掃碼關(guān)注