国产成人福利在线视频播放下载,成人无码www免费视频在线看,放荡的美妇在线播放,大地资源网最新更新,国产成人精品日本亚洲网站

泡泡網顯卡頻道 PCPOP首頁      /      顯卡     /      評測    /    正文

流處理器緣何差6倍!A/N GPU架構解析

    G80的128個1D標量ALU聽起來規(guī)模很龐大,而且將4D矢量指令轉換為4個1D標量指令時的效率也能達到100%,但實際上如果用相同的晶體管規(guī)模,可以設計出更加龐大的ALU運算器,這就是R600的流處理器架構。

● ATI改進傳統(tǒng)架構,制造龐大規(guī)模的流處理器

    與革命性的G80架構不同,R600身上有很多傳統(tǒng)GPU的影子,其Stream Processing Units很像上代的Shader Units,它依然是傳統(tǒng)的SIMD架構。

完美DX10!ATI新王者HD2900XT權威評測

    R600擁有4個SIMD陣列,每個SIMD陣列包括了16個Stream Processing Units,這樣總共就是64個,但不能簡單地認為它擁有64個流處理器,因為R600的每個Units內部包含了5個ALU:

完美DX10!ATI新王者HD2900XT權威評測

    我們來仔細看看R600的流處理器架構:Branch Execution Unit(分歧執(zhí)行單元)就是指令發(fā)射和控制器,它獲得指令包后將會安排至它管轄下5個ALU,進行流控制和條件運算。General Purpose Registers(通用寄存器)存儲輸入數據、臨時數值和輸出數據,并不存放指令。

    由于內部的5個1D ALU共享同一個指令發(fā)射端口,因此宏觀上R600應該算是SIMD(單指令多數據流)的5D矢量架構。但是R600內部的這5個ALU與傳統(tǒng)GPU的ALU有所不同,它們是各自獨立能夠處理任意組合的1D/2D/3D/4D/5D指令,完美支持Co-issue(矢量指令和標量指令并行執(zhí)行),因此微觀上可以將其稱為5D Superscalar超標量架構。

完美DX10!ATI新王者HD2900XT權威評測

    通過上圖就可以清楚的看到,單指令多數據流的超標量架構可以執(zhí)行任意組合形式的混合指令,在一個Stream Processing Units內部的5個ALU可以在單時鐘周期內進行5次MAD(Multiply-Add,乘加)運算,其中比較“胖”的ALU除了MAD之外還能執(zhí)行一些函數(SIN、COS、LOG、EXP等)運算,在特殊條件下提高運算效率!

    現在我們就知道R600確實擁有64x5=320個流處理器。R600的流處理器之所以能比G80多好幾倍就是得益于SIMD架構,可以用較少的晶體管堆積出龐大規(guī)模的流處理器。但是在指令執(zhí)行效率方面,SIMD架構非常依賴于將離散指令重新打包組合的算法和效率,正所謂有得必有失。

    通過前面的分析我們可以初步得出這樣的結論:G80的MIMD標量架構需要占用額外的晶體管數,在流處理器數量和理論運算能力方面比較吃虧,但卻能保證超高的執(zhí)行效率;而R600的SIMD超標量架構可以用較少的晶體管數獲得很多的流處理器數量和理論運算能力,但執(zhí)行效率方面要依具體情況而定。

1人已贊

關注我們

泡泡網

手機掃碼關注