国产成人福利在线视频播放下载,成人无码www免费视频在线看,放荡的美妇在线播放,大地资源网最新更新,国产成人精品日本亚洲网站

泡泡網(wǎng)顯卡頻道 PCPOP首頁      /      顯卡     /      評測    /    正文

火力全開超TITAN!GTX780GHz首發(fā)評測

    泡泡網(wǎng)顯卡頻道10月30日 擁有眾多光環(huán),GTX TITIAN一經(jīng)發(fā)布便備受媒體和市場的高度關(guān)注,但高昂的售價(jià)卻成了隔在它和消費(fèi)者之間的高墻,而TITAN的同門孿生兄弟 GeForce GTX 780雖然擁有超越TITAN的實(shí)力,但為了保證產(chǎn)品線定位不重疊,再加上當(dāng)時(shí)競爭對手并無能威脅到其地位的對應(yīng)產(chǎn)品,GTX780公版默認(rèn)頻率僅有863MHz。

火力全開秒TITAN!GTX780GHz首發(fā)評測

    在AMD R9 290X發(fā)布以后,NVIDIA也感受到了壓力,終于決定除去束縛GTX 780性能的桎梏,釋放其全部的性能。而通過實(shí)際測試,我們發(fā)現(xiàn)核心、顯存頻率的提升再加上多個(gè)驅(qū)動(dòng)版本的游戲效率優(yōu)化,新版GTX780GHz的性能相比舊版本有了質(zhì)的提升,本文將通過測試全方位解讀這款產(chǎn)品。

● GPU計(jì)算架構(gòu)Kepler GK110概述

    隨著科學(xué)、醫(yī)學(xué)、工程和金融各領(lǐng)域?qū)Ω咝阅懿⑿杏?jì)算需求的增加,NVIDIA不斷研發(fā)新的GPU計(jì)算架構(gòu)來滿足他們的需求。Fermi GPU已經(jīng)重新定義和加速了以下領(lǐng)域的高性能計(jì)算(HPC)的功能,如地震處理、生化模擬、天氣和氣候建模、信號處理、計(jì)算金融、計(jì)算機(jī)輔助工程、計(jì)算流體力學(xué)和數(shù)據(jù)分析,但它顯然還不夠快,新Kepler GK110 GPU的誕生大大提高了并行計(jì)算標(biāo)準(zhǔn),在各行各業(yè)幫助人們解決最困難的計(jì)算問題。

    通過提供比上一代GPU更強(qiáng)大的處理功能以及優(yōu)化和提高GPU上并行執(zhí)行工作負(fù)載的新方法,Kepler GK110簡化了并行程序的創(chuàng)建,將對會對高性能計(jì)算引起進(jìn)一步改革。

    Kepler GK110由71億個(gè)晶體管組成,是有史以來架構(gòu)最復(fù)雜的微處理器。GK110新加了許多注重計(jì)算性能創(chuàng)新功能,目的是要成為NVIDIA Tesla和HPC市場上的并行處理動(dòng)力站。

    Kepler GK110會提供超過每秒1萬億次雙精度浮點(diǎn)計(jì)算的吞吐量,DGEMM效率大于80%,而之前的Fermi架構(gòu)的效率是60‐65%。除了性能之外,Kepler架構(gòu)在電源效率方面也有巨大的飛躍,相對于Fermi 的性能/功率比提高了3倍之多!

1

    之前有人說Kepler GK110更適合超級計(jì)算和通用計(jì)算,其實(shí)這是一種誤解。Kepler GK110的以下新功能不僅提高GPU的利用率,簡化了并行程序設(shè)計(jì),而且有助于GPU在各種計(jì)算環(huán)境中部署,無論是從個(gè)人電腦還是超級計(jì)算機(jī),GK110都適用。

    Kepler GK110為NVIDIA Tesla打造,其目標(biāo)是成為世界上并行計(jì)算性能最高的微處理器。GK110 不僅大大超過由 Fermi 提供的原始計(jì)算能力,而且非常節(jié)能,顯著減少電力消耗,同時(shí)產(chǎn)生的熱量更少。完整 Kepler GK110 實(shí)施包括 15 SMX 單元和六個(gè) 64 位內(nèi)存控制器。不同的產(chǎn)品將使用GK110 不同的配置。例如,某些產(chǎn)品可能部署 13 或 14 個(gè) SMX。在下面進(jìn)一步討論的該架構(gòu)的主要功能,包括:

   1、新 SMX 處理器架構(gòu)
   2、增強(qiáng)的內(nèi)存子系統(tǒng),在每個(gè)層次提供額外的緩存能力,更多的帶寬,且完全進(jìn)行了重新設(shè)計(jì),DRAM I/O 實(shí)施的速度大大加快。
   3、貫穿整個(gè)設(shè)計(jì)的硬件支持使其具有新的編程模型功能

1

GK104框架規(guī)格

1

Kepler GK110芯片框圖(GTX 780屏蔽了其中的兩組SMX)

    Kepler GK110 支持新 CUDA Compute Capability 3.5。(有關(guān) CUDA 的簡介請參考附錄 A ‐CUDA 快速回顧)。下表對比了 Fermi 和 Kepler GPU 架構(gòu)的不同計(jì)算能力的參數(shù): 

1

Fermi和Kepler GPU的計(jì)算能力

性能/功率比

    Kepler架構(gòu)的一個(gè)主要設(shè)計(jì)目標(biāo)是提高電源效率。設(shè)計(jì)Kepler時(shí),NVIDIA工程師應(yīng)用從Fermi中積累的經(jīng)驗(yàn),以更好地優(yōu)化Kepler、實(shí)現(xiàn)高效運(yùn)行。臺積電的 28nm 制造工藝在降低功耗方面起著重要的作用,但許多 GPU 架構(gòu)需要修改,以進(jìn)一步降低功耗,同時(shí)保持出色的性能。

    Kepler每一個(gè)硬件設(shè)備都經(jīng)過設(shè)計(jì)和擦洗,以提供卓越的性能/ 功率比。出色性能/功率比的非常好的案例是Kepler GK110新流式多處理器 (SMX) 中的設(shè)計(jì),與最近Kepler GK104引入的 SMX 單元的許多方面類似,但計(jì)算算法包括更多雙精度單位。

    Kepler GK110的新SMX引入幾個(gè)架構(gòu)創(chuàng)新,使其不僅成為有史以來最強(qiáng)大的多處理器,而且更具編程性,更節(jié)能。

1

    SMX: 192個(gè)單精度CUDA核、64個(gè)雙精度單元、32個(gè)特殊功能單元(SFU)和32 個(gè)加載/存儲單元(LD/ST)。

SMX 處理核架構(gòu)

    每個(gè)Kepler GK110 SMX單元具有192單精度CUDA核,每個(gè)核完全由浮點(diǎn)和整數(shù)算術(shù)邏輯單元組成。Kepler完全保留Fermi引入的IEEE 754-2008 標(biāo)準(zhǔn)的單精度和雙精度算術(shù),包括積和熔加(FMA)運(yùn)算。

    Kepler GK110 SMX 的設(shè)計(jì)目標(biāo)之一是大大提高GPU的雙精度性能,因?yàn)殡p精度算術(shù)是許多HPC應(yīng)用的核心。Kepler GK110 的SMX還保留了特殊功能單元 (SFU)以達(dá)到和上一代GPU類似的快速超越運(yùn)算,所提供的SFU數(shù)量是Fermi GF110 SM的8倍。

    與GK104 SMX單元類似,GK110 SMX單元內(nèi)的核使用主GPU頻率而不是2倍的著色頻率。2x著色頻率在 G80 Tesla 架構(gòu)的 GPU 中引入,并用于之后所有的 Tesla 和 Fermi‐架構(gòu)的GPU。在更高時(shí)鐘頻率上運(yùn)行執(zhí)行單元使芯片使用較少量的執(zhí)行單元達(dá)到特定目標(biāo)的吞吐量,這實(shí)質(zhì)上是一個(gè)面積優(yōu)化,但速度更快的內(nèi)核的時(shí)鐘邏輯更耗電。對于Kepler,我們的首要任務(wù)是的性能/功率比。雖然我們做了很多面積和功耗方面的優(yōu)化,但是我們更傾向優(yōu)化功耗,甚至以增
加面積成本為代價(jià)使大量處理核在能耗少、低GPU頻率情況下運(yùn)行。

Quad Warp Scheduler

    SMX以32個(gè)并行線程為一組的形式調(diào)度進(jìn)程,這32個(gè)并行線程叫做Warp。而每個(gè)SMX中擁有四組 Warp Scheduler 和八組 Instruction Dispatch 單元,允許四個(gè)Warp同時(shí)發(fā)出執(zhí)行。Kepler 的 Quad Warp Scheduler 選擇四個(gè) Warp,在每個(gè)循環(huán)中可以指派每 Warp 2 個(gè)獨(dú)立的指令。與 Fermi 不同,F(xiàn)ermi 不允許雙精度指令和部分其他指令配對,而 Kepler GK110 允許雙精度指令和其他特定沒有注冊文件讀取的指令配對 例如加載/存儲指令、紋理指令以及一些整數(shù)型指令。

1

    每個(gè)Kepler SMX 包含4組Warp Scheduler,每組Warp Scheduler包含兩組 Instruction Dispatch單元。單個(gè)Warp Scheduler單元如上所示。

    我們努力優(yōu)化SMX Warp Scheduler邏輯中的能源。例如,Kepler和Fermi Scheduler 包含類似的硬件單元來處理調(diào)度功能。其中包括:

a) 記錄長延遲操作(紋理和加載的寄存器
b) Warp 內(nèi)調(diào)度決定(例如在合格的候選 Warp 中挑選出非常好的 Warp 運(yùn)行)
c) 線程塊級調(diào)度(例如,GigaThread 引擎)

    然而,F(xiàn)ermi的scheduler還包含復(fù)雜的硬件以防止數(shù)據(jù)在其本身數(shù)學(xué)數(shù)據(jù)路徑中的弊端。多端口寄存器記錄板會紀(jì)錄任何沒有有效數(shù)據(jù)的寄存器,依賴檢查塊針對記錄板分析多個(gè)完全解碼的 Warp指令中寄存器的使用情況過,確定哪個(gè)有資格發(fā)出。

    對于 Kepler ,我們認(rèn)識到這一信息是確定性的(數(shù)學(xué)管道延遲是不變量),因此,編譯器可以提前確定指令何時(shí)準(zhǔn)備發(fā)出,并在指令中提供此信息。這樣一來,我們就可以用硬件塊替換幾個(gè)復(fù)雜、耗電的塊,其中硬件塊提取出之前確定的延遲信息并將其用于在 Warp 間調(diào)度階段屏蔽Warp,使其失去資格。

新ISA編碼:每個(gè)線程255個(gè)寄存器

    可由線程訪問的寄存器的數(shù)量在 GK110 中已經(jīng)翻了兩番,允許線程最多訪問 255 個(gè)寄存器。由于增加了每個(gè)線程可用的寄存器數(shù)量,F(xiàn)ermi 中承受很大寄存器壓力或泄露行為的代碼的速度能大大的提高。典型的例子是在 QUDA 庫中使用 CUDA 執(zhí)行格點(diǎn) QCD(量子色動(dòng)力學(xué))計(jì)算。基于 QUDA fp64 的算法由于能夠讓每個(gè)線程使用更多寄存器并減少的本地內(nèi)存泄漏,所以其性能提高了 5.3 倍。

Shuffle 指令

    為了進(jìn)一步提高性能,Kepler 采用 Shuffle 指令,它允許線程在 Warp 中共享數(shù)據(jù)。此前,Warp 內(nèi)線程之間的數(shù)據(jù)共享需要存儲和加載操作以通過共享內(nèi)存?zhèn)鬟f數(shù)據(jù)。使用 Shuffle 指令,Warp 可以讀取來自Warp 內(nèi)其他線程中任意排列的值。Shuffle 支持任意索引引用(即任何線程讀取任何其他線程)。有用的 Shuffle 子集包括下一線程(由固定量彌補(bǔ)抵消)和 Warp 中線程間 XOR “蝴蝶”式排列,也稱為 CUDA 性。

    Shuffle 性能優(yōu)于共享內(nèi)存,因此存儲和加載操作能夠一步完成。Shuffle 也可以減少每個(gè)線程塊所需共享內(nèi)存的數(shù)量,因?yàn)閿?shù)據(jù)在 Warp 級交換也不需要放置在共享內(nèi)存中。在 FFT 的情況下,需要共享一個(gè) Warp 內(nèi)的數(shù)據(jù),通過使用 Shuffle 獲得 6%的性能增益。

1

此示例表明某些變量可以在 Kepler 中使用 Shuffle 指令。

原子運(yùn)算

    原子內(nèi)存運(yùn)算對并行編程十分重要,允許并發(fā)線程對共享數(shù)據(jù)結(jié)構(gòu)執(zhí)行正確的讀‐修改‐寫運(yùn)算。原子運(yùn)算如 add、min、max 和 compare,swap 在某種意義上也是也是原子運(yùn)算,如果在沒有其他線程干擾的情況下執(zhí)行讀、修改和寫運(yùn)算。原子內(nèi)存運(yùn)算被廣泛用于并行排序、歸約運(yùn)算、建制數(shù)據(jù)結(jié)構(gòu)而同時(shí)不需要鎖定線程順序執(zhí)行。

    Kepler GK110 全局內(nèi)存原子運(yùn)算的吞吐量較 Fermi 時(shí)代有大幅的提高。普通全局內(nèi)存地址的原子運(yùn)算吞吐量相對于每頻率一個(gè)運(yùn)算來說提高了 9 倍。獨(dú)立的全局地址的原子運(yùn)算的吞吐量也明顯加快,而且處理地址沖突的邏輯已經(jīng)變得更有效。原子運(yùn)算通??梢园凑疹愃迫重?fù)載運(yùn)算的速度進(jìn)行處理。此速度的提高使得原子運(yùn)算足夠快得在內(nèi)核內(nèi)部循環(huán)中使用,消除之前一些算法整合結(jié)
果所需要的單獨(dú)的歸約傳遞。Kepler GK110 還擴(kuò)展了對全局內(nèi)存中 64‐位原子運(yùn)算的本機(jī)支持。除了 atomicAdd、atomicCAS 和 atomicExch(也受 Fermi 和 Kepler GK104 支持)之外,GK110 還支持以下功能:

    atomicMin、atomicMax、atomicAnd、atomicOr、atomicXor

    其他不受本機(jī)支持的原子運(yùn)算(例如 64 位浮點(diǎn)原子運(yùn)算)可以使用 compare‐and‐swap (CAS) 指令模擬。

紋理改進(jìn)

    GPU 的專用硬件紋理單元對于需要取樣或過濾圖像數(shù)據(jù)的計(jì)算機(jī)程序來說是寶貴的資源。Kepler中的紋理吞吐量與 Fermi 相比有明顯提高,每個(gè)SMX單元包含16紋理過濾單元,對比Fermi GF110 SM 提高了4倍。

    此外,Kepler改變了管理紋理狀態(tài)的方法。在Fermi時(shí)代,為讓GPU引用紋理,必須在固定大小綁定表中分配“槽”才能啟動(dòng) Grid。表中槽數(shù)量最終限制程序一次可以讀取多少個(gè)獨(dú)特的紋理。最終,在 Fermi 中限制程序僅可以同時(shí)訪問128紋理。

    Kepler中有無綁定紋理,不需要額外步驟:紋理狀態(tài)已保存為內(nèi)存中的對象,硬件按需獲取這些狀態(tài)對象,綁定表過時(shí)。這有效地消除了計(jì)算程序引用獨(dú)特紋理數(shù)量的任何限制。相反,程序可以在任何時(shí)間映射紋理和通紋理處理周圍。

    Kepler的內(nèi)存層次結(jié)構(gòu)與Fermi類似。Kepler架構(gòu)支持統(tǒng)一內(nèi)存加載和存儲的請求路徑,每個(gè)SMX 多處理器有一個(gè)L1緩存。Kepler GK110 還使編譯器指示為只讀數(shù)據(jù)增設(shè)一個(gè)新的緩存,如下所述。

1

64KB可配置共享內(nèi)存和L1緩存

    在 Kepler GK110 架構(gòu)(如在上一代 Fermi 架構(gòu))中,每個(gè) SMX 有 64 KB 的片上存儲器,可配置為 48 KB 的 共享存儲器和 16 KB 的 L1 緩存,或配置為 16 KB 的共享存儲器和 48 KB 的 L1 緩存。Kepler 目前在配置共享存儲器的分配和 L1 緩存方面的靈活性更大,允許共享存儲器和 L1 緩存之間以 32KB/32KB 劃分。為了支持 SMX 單元增加的吞吐量,用于 64 位或更大負(fù)載運(yùn)算的共享存儲器帶寬相對 Fermi SM 也增加一倍,到每主頻 256B。

48KB只讀‐數(shù)據(jù)緩存

    除 L1 緩存之外,Kepler 為只讀數(shù)據(jù)引入 48 KB 緩存為了函數(shù)的持續(xù)時(shí)間。在 Fermi 時(shí)代,該緩存只能由紋理單元訪問。專家程序員通常發(fā)現(xiàn)它的優(yōu)勢是通過將數(shù)據(jù)映射為紋理來加載數(shù)據(jù),但這種方法有很多局限性。

    在 Kepler 中,除了大大提高了該緩存的容量之外,還伴隨著紋理功力的提高,我們決定讓緩存為一般負(fù)載運(yùn)算直接訪問 SM 。使用只讀的路徑好處極大,因?yàn)樗关?fù)載和工作組的影響遠(yuǎn)離共享/L1緩存路徑。此外,其他情況下,只讀數(shù)據(jù)緩存更高的標(biāo)簽帶寬支持全速非對齊內(nèi)存訪問模式。

    該路徑的使用是由編譯器自動(dòng)管理(通過參數(shù) C99 訪問任何變量或稱為常量的數(shù)據(jù)結(jié)構(gòu))。標(biāo)準(zhǔn)關(guān)鍵字 “const_restrict” 將被編譯器標(biāo)記以通過只讀數(shù)據(jù)緩存加載。

改進(jìn)的L2緩存

    Kepler GK110 GPU 具有 1536KB 的專用 L2 緩存內(nèi)存,是 Fermi 架構(gòu)中 L2 的 2 倍。L2 緩存是SMX 單元之間主要數(shù)據(jù)統(tǒng)一點(diǎn),處理所有加載、存儲和紋理請求并提供跨 GPU 之間有效、高速的數(shù)據(jù)共享。Kepler 上的 L2 緩存提供的每時(shí)鐘帶寬是 Fermi 中的 2 倍。之前不知道數(shù)據(jù)地址的算法,如物理求解器、光線追蹤以及稀疏矩陣乘法,從高速緩存層次結(jié)構(gòu)中獲益匪淺。需要多個(gè)SM讀取相同數(shù)據(jù)過濾和卷積內(nèi)核也從中受益。

內(nèi)存保護(hù)支持

    與 Fermi 相同,Kepler的注冊文件、共享內(nèi)存、L1 緩存、L2 緩存和 DRAM 內(nèi)存受單錯(cuò)糾正雙錯(cuò)檢測 (SECDED) ECC 代碼保護(hù)。此外,只讀的數(shù)據(jù)緩存‐通過奇偶校驗(yàn)支持單錯(cuò)糾正,在奇偶校驗(yàn)錯(cuò)誤的情況下,緩存單元自動(dòng)使失效,迫使從 L2 讀取正確的數(shù)據(jù)。

    ECC 校驗(yàn)位從 DRAM 獲取必定消耗一定量的帶寬,這會導(dǎo)致啟用 ECC和停用 ECC的運(yùn)算之間的差異,尤其對于內(nèi)存帶寬敏感的應(yīng)用程序?;?Fermi 的經(jīng)驗(yàn),Kepler GK110 對 ECC 校驗(yàn)位獲取處理進(jìn)行了幾項(xiàng)優(yōu)化。結(jié)果,經(jīng)內(nèi)部的計(jì)算應(yīng)用測試套件測量,開啟和關(guān)閉 ECC 的性能三角洲已經(jīng)平均降低 66%。

    在混合 CPU‐GPU 系統(tǒng)中,由于 GPU 的性能/ 功率比提高,使應(yīng)用程序中大量并行代碼完全在GPU 高效運(yùn)行,提高了可擴(kuò)展性和性能。為了加快應(yīng)用程序的額外并行部分的處理,GPU必須支持更加多樣化的并行工作負(fù)載類型。

    Dynamic Parallelism 是 Kepler GK110 引入的新功能,能夠讓 GPU 在無需 CPU 介入的情況下,通過專用加速硬件路徑為自己創(chuàng)造新的工作,對結(jié)果同步,并控制這項(xiàng)工作的調(diào)度。

    在內(nèi)核啟動(dòng)時(shí),如果問題的規(guī)模和參數(shù)已知,那么 Fermi 在處理大型并行數(shù)據(jù)結(jié)構(gòu)時(shí)效果非常好。所有的工作是從主機(jī) CPU 啟動(dòng),會運(yùn)行到完成,并返回結(jié)果返回到 CPU。結(jié)果將被用來作為最終的解決方案的一部分,或通過 CPU 進(jìn)行分析,然后向 GPU 發(fā)送額外的處理請求以進(jìn)行額外處理。

    在 Kepler GK110中,任何一個(gè)內(nèi)核都可以啟動(dòng)另一個(gè)內(nèi)核,并創(chuàng)建處理額外的工作所需的必要流程、事件以及管理依賴,而無需主機(jī) CPU 的介入。T 該架構(gòu)能讓開發(fā)人員更容易創(chuàng)建和優(yōu)化遞歸和數(shù)據(jù)依賴的執(zhí)行模式,并允許更多的程序直接運(yùn)行在 GPU 上??梢詾槠渌蝿?wù)釋放系統(tǒng)CPU,或可以用功能少的 CPU 配置系統(tǒng)以運(yùn)行相同的工作負(fù)載。

1

    Dynamic Parallelism 允許應(yīng)用程序中更多的并行代碼直接由 GPU 本身啟動(dòng)(右側(cè)圖像),而不需要 CPU 的干預(yù)(左側(cè)圖像)。

    Dynamic Parallelism 允許更多種并行算法在 GPU 上執(zhí)行,包括不同數(shù)量的并行嵌套循環(huán)、串行控制任務(wù)線程的并行隊(duì)或或卸載到 GPU 的簡單的串行控制代碼,以便促進(jìn)應(yīng)用程序的并行部分的數(shù)據(jù)局部化。

    因?yàn)閮?nèi)核能夠根據(jù)GPU 中間結(jié)果啟動(dòng)額外工作負(fù)載,程序員現(xiàn)在可以智能處理負(fù)載平衡的工作,以集中其大量資源在需要處理能力最大或與解決方案最有關(guān)的問題上。

    一個(gè)例子是動(dòng)態(tài)設(shè)置數(shù)值模擬的 Grid。 通常 Grid 主要集中在變化最大的地區(qū),需要通過數(shù)據(jù)進(jìn)行昂貴的前處理。另外,均勻粗 Grid 可以用來防止浪費(fèi)的 GPU 資源,或均勻細(xì) Grid 可以用來確保捕獲所有功能,但這些選項(xiàng)的風(fēng)險(xiǎn)是在不太被注意的地區(qū)缺少模擬功能或“過度消費(fèi)”的計(jì)算資源。

    有了 Dynamic Parallelism,可以在運(yùn)行時(shí)以數(shù)據(jù)依賴形式動(dòng)態(tài)確定‐Grid解決方案。以粗 Grid開始,模擬“放大”注意的區(qū)域,同時(shí)避免在變化不大區(qū)域中不必要的計(jì)算。雖然這可以通過使用一系列的 CPU 啟動(dòng)的內(nèi)核來完成,但是通過分析數(shù)據(jù)、作為單個(gè)模擬內(nèi)核部分啟動(dòng)額外工作讓 GPU 細(xì)化 Grid 本身要簡單的多,消除了 CPU 的中斷以及CPU和GPU之間的數(shù)據(jù)傳輸。

1

    上面的例子說明了在數(shù)值模擬,采用動(dòng)態(tài)調(diào)整 Grid 的好處。為了滿足峰值的精度要求,固定的分辨率仿真必須運(yùn)行在整個(gè)模擬域過于精細(xì)的分辨率上,而多分辨率 Grid 根據(jù)當(dāng)?shù)氐淖兓癁槊總€(gè)區(qū)域應(yīng)用正確的模擬分辨率。

    原來的一個(gè)困難是,GPU始終要優(yōu)化調(diào)度來自多個(gè)數(shù)據(jù)流的工作負(fù)載。Fermi 結(jié)構(gòu)支持從單獨(dú)數(shù)據(jù)流的16路并發(fā)內(nèi)核啟動(dòng),但最終數(shù)據(jù)流都復(fù)用相同的硬件工作隊(duì)列。這允許虛假的數(shù)據(jù)流內(nèi)依賴,要求在單獨(dú)數(shù)據(jù)流內(nèi)的其他內(nèi)核可以執(zhí)行之前就完成一個(gè)數(shù)據(jù)流內(nèi)依靠的內(nèi)核。雖然在某種程度上這可以通過使用廣度優(yōu)先啟動(dòng)順序緩解,但是隨著程序的復(fù)雜性的增加,這可以成為越來越難以有效地管理。

    Kepler GK110 使用新 Hyper‐Q 特征改進(jìn)了這一功能。Hyper‐Q 允許 32 個(gè)并發(fā),硬件管理的連接( 對比 Fermi 的單一連接),增加了主機(jī)和 GPU 中 CUDA Work Distributor (CWD)邏輯之間的連接總數(shù)(工作隊(duì)列)。Hyper‐Q 是一種靈活的解決方案,允許來自多個(gè) CUDA 流、多個(gè)消息傳遞接口(MPI)進(jìn)程,甚至是進(jìn)程內(nèi)多個(gè)線程的單獨(dú)連接。以前遇到跨任務(wù)虛假串行化任務(wù)的應(yīng)用程序,限制了 GPU 的利用率,而現(xiàn)在無需改變?nèi)魏维F(xiàn)有代碼,性能就能得到 32 倍的大幅度提升。

1

1

Hyper‐Q 允許CPU和GPU之間更多的并發(fā)連接

    每個(gè) CUDA 流在其自己硬件工作隊(duì)列管理,優(yōu)化流間的依賴關(guān)系,一個(gè)流中的運(yùn)算將不再阻止其他流,使得流能夠同時(shí)執(zhí)行,無需特別定制的啟動(dòng)順序,消除了可能的虛假依賴。Hyper‐Q 在基于 MPI 的并行計(jì)算機(jī)系統(tǒng)中使用會有明顯的優(yōu)勢。通常在多核 CPU 系統(tǒng)上運(yùn)行時(shí)創(chuàng)建傳統(tǒng)基于 MPI‐的算法,分配給每個(gè) MPI 進(jìn)程的工作量會相應(yīng)地調(diào)整。這可能會導(dǎo)致單個(gè)MPI 進(jìn)程沒有足夠的工作完全占據(jù) GPU。雖然一直以來多個(gè) MPI 進(jìn)程都可以共享 GPU,但是這些進(jìn)程可能會成為虛假依賴的瓶頸。Hyper‐Q 避免了這些虛假的依賴,大大提高了 MPI 進(jìn)程間共享 GPU 的效率。

1

    Hyper‐Q 與 CUDA 流一起工作:左側(cè)顯示 Fermi 模式,僅 (C,P) 和 (R,X) 可以同時(shí)運(yùn)行,因?yàn)閱蝹€(gè)硬件工作隊(duì)列導(dǎo)致的流內(nèi)依賴。Kepler Hyper‐Q 模式允許所有流使用單獨(dú)的工作隊(duì)列同時(shí)運(yùn)行。

    Kepler GK110 中的新功能,如 CUDA 內(nèi)核能夠利用 Dynamic Parallelism 在 GPU 上直接啟動(dòng)工作,需要 Kepler 中 CPU‐to‐GPU 工作流提供比 Fermi 設(shè)計(jì)增強(qiáng)的功能。Fermi中,線程塊的Grid可由CPU啟動(dòng),并將一直運(yùn)行到完成,通過 CUDA Work Distributor (CWD) 單元?jiǎng)?chuàng)建從主機(jī)到SM的簡單單向工作流。Kepler GK110目的是通過GPU有效管理CPU和CUDA創(chuàng)建的工作負(fù)載來改進(jìn) CPU‐到‐GPU 的工作流。

    我們討論了 Kepler GK110 GPU 允許內(nèi)核直接在GPU上啟動(dòng)工作的能力,重要的是要理解在Kepler GK110 架構(gòu)所做的變化,促成了這些新功能。Kepler 中,Grid 可從 CPU 啟動(dòng),就和Fermi 的情況一樣,但是新 Grid 還可通過編程由 CUDA 在 Kepler SMX 單元中創(chuàng)建。要管理CUDA 創(chuàng)建的 Grid 和主機(jī)生成的 Grid,在 Kepler GK110 中引入新 Grid Management Unit (GMU)。該控制單元管理并優(yōu)先化傳送到 CWD 要發(fā)送到 SMX 單元執(zhí)行的 Grid。

    Kepler 中的 CWD 保留準(zhǔn)備好調(diào)度的 Grid,并能調(diào)度 32 個(gè)活動(dòng)的 Grid,這是 Fermi CWD 容量的兩倍。Kepler CWD 通過雙向鏈接進(jìn)行通信,允許 GMU 暫停新 Grid 的調(diào)度并保留掛起和暫停的 Grid,直到需要。GMU 也有到 Kepler SMX 單元的直接連接,允許 Grid 通過 Dynamic Parallelism 在 GPU 上啟動(dòng)其他工作,以將新工作傳回到 GMU 進(jìn)行優(yōu)先化和調(diào)度。如果暫停調(diào)度的額外工作量的內(nèi)核,GMU 將保持其為不活動(dòng),知道以來工作完成。

1

    重新設(shè)計(jì)的 Kepler HOST 到 GPU 的工作流顯示新 Grid Management Unit,允許其管理主動(dòng)調(diào)度的 Grid、暫停調(diào)度、保留掛起和暫停的 Grid。

NVIDIA GPUDirect

    當(dāng)處理大量的數(shù)據(jù)時(shí),提高數(shù)據(jù)吞吐量并降低延遲,對于提高計(jì)算性能是至關(guān)重要的。Kepler GK110 支持NVIDIA GPUDirect 中的 RDMA,目的是通過允許第三方設(shè)備,如 IB 適配器、NIC 和 SSD,直接訪問 GPU 內(nèi)存‐來提高性能。使用 CUDA 5.0 時(shí),GPUDirect 提供以下重要功能:

     無需 CPU方面的數(shù)據(jù)緩沖, NIC 和 GPU 之間的直接內(nèi)存存取 (DMA)
     顯著改善 GPU和其他網(wǎng)絡(luò)節(jié)點(diǎn)之間的 MPISend/ MPIRecv 效率。
     消除了 CPU 帶寬和延遲的瓶頸
     與各種第三方網(wǎng)絡(luò)、捕獲和存儲設(shè)備一起工作

    如逆時(shí)偏移(用于石油和天然氣勘探地震成像)這樣的應(yīng)用程序,將大量影像數(shù)據(jù)分布在多個(gè)GPU。數(shù)以百計(jì)的 GPU 必須合作,以緊縮的數(shù)據(jù),經(jīng)常通信中間結(jié)果 GPUDirect 利用 P2P 和RDMA 功能為服務(wù)器內(nèi)或服務(wù)器之間“ GPU‐ 到‐GPU” 的通信的情況分配更高的總帶寬。

    Kepler GK110 還支持其他功能 GPUDirect,如 Peer‐to‐Peer 和 GPUDirect for Video。

1

    GPUDirect RDMA 允許網(wǎng)絡(luò)適配器這樣的第三方設(shè)備訪問GPU內(nèi)存,轉(zhuǎn)換為跨節(jié)點(diǎn)GPU之間直接傳輸。

● 七彩虹GTX780 CH-3GD5

七彩虹iGame780-3GD5顯卡

● 華碩GTX780 DirectCUII OC

火力全開秒TITAN!GTX780GHz首發(fā)評測

● 索泰GTX780-3GD5 AMP

索泰(ZOTAC)GTX780-3GD5 AMP 1006-1059MHz/6208MHz 3GB/384bit GDDR5顯卡

● msi微星GTX780 LIGHTNING

msi微星GTX780 LIGHTNING顯卡

● 技嘉GV-N780OC-3GD

技嘉(GIGABYTE) GV-N780OC-3GD 1006MHz/6008MHz 3072MB/384bit GDDR5 PCI-E顯卡顯卡

● 映眾GTX780冰龍版 ICHILL

全球首款非公版 映眾GTX780冰龍版評測

● 影馳GTX780-YC 名人堂

火力全開超TITAN!GTX780GHz首發(fā)評測

    測試時(shí)所有游戲中開啟全部特效,包括4X抗鋸齒(AA)和16X各向異性過濾(AF)。雖然很多游戲提供了更高精度的AA,但由于實(shí)用價(jià)值不高,且沒有可對比性,所以不做測試。

1

    目前也有部分顯示器是(1920x1200),游戲在這種分辨率下的性能表現(xiàn)與1920x1080差不多,F(xiàn)PS稍低一點(diǎn)點(diǎn),使用這種顯示器的朋友依然可以參考我們的測試成績。

火力全開很猛!新版GTX780GHz首發(fā)評測

NVIDIA GeForce GTX 780GHz GPU-Z

泰坦的孿生兄弟!NVIDIA GTX 780首測

NVIDIA GeForce GTX 780 GPU-Z

● 測試平臺主板:技嘉G1.Sniper M3

技嘉 Z77 游戲系列主板

    技嘉 G1.Sniper M3是一款采用m-ATX板型設(shè)計(jì)的高端Z77主板,它結(jié)合了屢獲殊榮的G1.Killer設(shè)計(jì)理念,目標(biāo)是給玩家提供強(qiáng)大的性能。無論是內(nèi)建Creative專業(yè)級音效處理器、Sound Core3D高質(zhì)感音效輸出還是支持 cFosSpeed 與網(wǎng)絡(luò)加速技術(shù)的芯片,都是為了讓玩家能有最棒的娛樂和聯(lián)網(wǎng)游戲體驗(yàn)。

● 測試平臺電源:Antec HCP1200

Antec HCP1200評測

    安鈦克Antec HCP1200電源在世界超頻大賽中非常常見,通過了80PLUS認(rèn)證,轉(zhuǎn)換效率高達(dá)92.4%,支持4路12V輸出,最高電流72A,支持四卡SLI/交火。平均無故障運(yùn)行時(shí)間為10萬小時(shí)。配備一顆8cm靜音風(fēng)扇,運(yùn)行噪音極低。

● 測試平臺SSD:OCZ Vetrx3 240GB

OCZ VERTEX4 128G升級新固件對比評測

   OCZ的Vertex系列屬于它的高端固態(tài)硬盤,專門為高端玩家和存儲發(fā)燒友設(shè)計(jì)。隨著Sandforce控制器大紅大紫,OCZ也將Vertex系列升級到了全新的SF1200方案。如今SATA3.0 6Gbps接口大行其道,OCZ推出了基于SF2200系列主控芯片的Vertex 3固態(tài)硬盤,涵蓋60-480GB容量范圍。

    既然針對平臺不同,測試項(xiàng)目自然也相去甚遠(yuǎn)。三大平臺除了PC追求極致性能外,筆記本和平板都受限于電池和移動(dòng)因素,性能不是很高,因此之前的3Dmark11雖然有三檔可選,依然不能準(zhǔn)確衡量移動(dòng)設(shè)備的真實(shí)性能。

性能大洗牌!全系列顯卡鏖戰(zhàn)新3DMARK

3DMARK主界面

    而這次Futuremark為移動(dòng)平臺量身定做了專有測試方案,新一代3DMark三個(gè)場景的畫面精細(xì)程度以及對配置的要求可謂天差地別。

性能大洗牌!全系列顯卡鏖戰(zhàn)新3DMARK

    Fire Strike、Cloud Gate、Ice Storm三大場景,他們分別對應(yīng)當(dāng)前最熱門的三大類型的電腦——臺式電腦、筆記本電腦和平板電腦。

1

1

    最新的3DMARK軟件,最嚴(yán)苛的Fire Strike Extreme模式中,GTX 780GHz以4762的成績拔得頭籌,R9 290X成績也不錯(cuò)緊隨其后,當(dāng)然主要是因?yàn)檫@款測試軟件A卡跑分整體占優(yōu)勢。

<

3DMark11權(quán)威測試!22款DX11顯卡排行

顯卡決戰(zhàn)3DMark11 顯卡決戰(zhàn)3DMark11

    3DMark11的測試重點(diǎn)是實(shí)時(shí)利用DX11 API更新和渲染復(fù)雜的游戲世界,通過六個(gè)不同測試環(huán)節(jié)得到一個(gè)綜合評分,藉此評判一套PC系統(tǒng)的基準(zhǔn)性能水平。

● 3DMark 11的特色與亮點(diǎn):

1、原生支持DirectX 11:基于原生DX11引擎,全面使用DX11 API的所有新特性,包括曲面細(xì)分、計(jì)算著色器、多線程。

2、原生支持64bit,保留32bit原生64位編譯程序,獨(dú)立的32位、64位可執(zhí)行文件,并支持兼容模式。

3、新測試場景:總計(jì)六個(gè)測試場景,包括四個(gè)圖形測試(其實(shí)是兩個(gè)場景)、一個(gè)物理測試、一個(gè)綜合測試,全面衡量GPU、CPU性能。

4、拋棄PhysX,使用Bullet物理引擎:拋棄封閉的NVIDIA PhysX而改用開源的Bullet專業(yè)物理庫,支持碰撞檢測、剛體、軟體,根據(jù)ZLib授權(quán)協(xié)議而免費(fèi)使用。

1

    3Dmark11大量特效堆砌出來的以假亂真的畫面讓旗艦顯卡也不能完全流暢運(yùn)行它。本次測試中所有顯卡一視同仁開啟Extreme模式,高端級和旗艦級性能差距依舊非常明顯。這個(gè)測試項(xiàng)目和最新的3DMARK軟件測試成績正好相反,N卡在3DMARK11中占據(jù)了不小優(yōu)勢。

    對于現(xiàn)代顯卡測試而言,除了3DMark之外必不可少的項(xiàng)目就是來自俄羅斯的Unigine Heaven(天堂),尤以其高負(fù)載、高壓榨而知名?,F(xiàn)在,新一代3DMark發(fā)布之后,Unigine也奉上了全新的顯卡測試程序“Valley”(山谷)。
Valley正是Heaven的開發(fā)團(tuán)隊(duì)一手打造的,可以在最大程度上榨干GPU顯卡資源。這次場景來到了一個(gè)優(yōu)美空靈的山谷,群山環(huán)繞,郁郁蔥蔥,白雪皚皚,旭日初升,而且擁有極致的細(xì)節(jié),每一片花瓣、每一株小草都清晰可見。

泰坦的孿生兄弟!NVIDIA GTX 780首測

主要技術(shù)特點(diǎn)包括:
— 場景面積達(dá)6400萬平方米,超高細(xì)節(jié)
— 整個(gè)場景可以完全自由瀏覽,并支持鳥瞰、漫步模式
— 先進(jìn)視覺技術(shù):動(dòng)態(tài)天空、體積云、陽光散射、景深、環(huán)境光遮蔽
— 所有植被、巖石均為實(shí)時(shí)渲染,而非貼圖
— 用戶可控的動(dòng)態(tài)天氣
— 支持立體3D、多屏幕
— 極限硬件穩(wěn)定性測試
— 基準(zhǔn)測試預(yù)設(shè)
— 監(jiān)視每一幀畫面對應(yīng)的GPU溫度和頻率
— 多平臺支持:Windows、Linux、Mac OS X
— 支持命令行自動(dòng)執(zhí)行
— CSV格式可定制報(bào)告

泰坦的孿生兄弟!NVIDIA GTX 780首測

    Unigine Valley分為基礎(chǔ)版、高級版、專業(yè)版三個(gè)版本,其中基礎(chǔ)版免費(fèi),支持測試預(yù)設(shè)、自定義設(shè)置、GPU監(jiān)視、交互模式,不支持循環(huán)測試(也就是拷機(jī)模式)、命令行、CSV報(bào)告,對于普通用戶和一般評測足夠用了。

1

1

    Unigine Valley的場景面積達(dá)6400萬平方米,超高細(xì)節(jié),對顯卡渲染提出了很大的考驗(yàn),在未來的游戲中,類似的情況將會越來越多。GTX 780GHz可以在極端HD模式下達(dá)到66.3FPS!

    《孤島危機(jī)3》支持大量的高端圖形選項(xiàng)以及高分辨率材質(zhì)。在游戲中,PC玩家將能看到一系列的選項(xiàng),包括了游戲效果、物品細(xì)節(jié)、粒子系統(tǒng)、后置處理、著色器、陰影、水體、各向異性過濾、材質(zhì)分辨率、動(dòng)態(tài)模糊以及自然光。技術(shù)主管Marco Corbetta表示之所以《孤島危機(jī)2》并不包含這么多的選項(xiàng),是因?yàn)殚_發(fā)主機(jī)板的開發(fā)組實(shí)在是搞的太慢了。

DX11最強(qiáng)引擎!主流卡鏖戰(zhàn) Crysis 3

● 實(shí)時(shí)體積煙云陰影(Real-Time Volumetric Cloud Shadows)

    實(shí)時(shí)體積煙云陰影(Real-Time Volumetric Cloud Shadows)是把容積云,煙霧和粒子陰影效果結(jié)合起來的一種技術(shù)。和之前的類似技術(shù)相比,實(shí)時(shí)體積煙云陰影技術(shù)允許動(dòng)態(tài)生成的煙霧擁有體積并且對光線造成影響,和其他物體的紋理渲染互動(dòng)變化。

● 像素精度置換貼圖(Pixel Accurate Displacement Mapping)

    像素精度置換貼圖(Pixel Accurate Displacement Mapping)可以讓CryEngine 3引擎無需借助DX11的細(xì)分曲面技術(shù)即可一次渲染出大量沒有明顯棱角的多邊形。此前crytek曾透露過正在考慮在主機(jī)上實(shí)現(xiàn)類似PC上需要DX11硬件才能實(shí)現(xiàn)的細(xì)分曲面效果,看來此言非虛,新型的位移貼圖技術(shù)來模擬細(xì)分曲面的效果。雖然實(shí)現(xiàn)原理完全不同,但效果看起來毫不遜色。

顯卡危機(jī)!畫質(zhì)最強(qiáng)游戲 Crysis3評測

極度精細(xì)逼真,完全嵌合的植被(Tessellated Vegetation)

● 實(shí)時(shí)區(qū)域光照(Real-Time Area Lights)

    實(shí)時(shí)區(qū)域光照(Real-Time Area Lights)從單純的模擬點(diǎn)光源照射及投影進(jìn)化到區(qū)域光照的實(shí)現(xiàn),以及可變半陰影(即投影隨著距離的拉長出現(xiàn)模糊效果),更準(zhǔn)確的模擬真實(shí)環(huán)境的光照特性。

● 布料植被綜合模擬(Integrated Cloth & Vegetation Simulation)

    布料植被綜合模擬(Integrated Cloth & Vegetation Simulation)其實(shí)在孤島危機(jī)1代中植被已經(jīng)有了非常不錯(cuò)的物理效果,會因?yàn)槿宋锝?jīng)過而擺動(dòng),但是這次crytek更加強(qiáng)化了這方面的效果,還有就是加入了對布料材質(zhì)的物理模擬,這方面之前只有nvidia的physx做得比較好。

● 動(dòng)態(tài)體積水反射(Dynamic Water Volume Caustics)

顯卡危機(jī)!畫質(zhì)最強(qiáng)游戲 Crysis3評測

    動(dòng)態(tài)體積水反射(Dynamic Water Volume Caustics)孤島危機(jī)1和2基本上在水的表現(xiàn)上集中在海水,很少有湖泊和類似大面積積水潭的場景,而這次crytek實(shí)現(xiàn)了超遠(yuǎn)視野的水面動(dòng)態(tài)反射。動(dòng)態(tài)體積水反射可以說是孤島危機(jī)2中的本地實(shí)時(shí)反射的一個(gè)延伸,是結(jié)合靜態(tài)環(huán)境采樣和動(dòng)態(tài)效果的新的水面反射技術(shù)。

顯卡危機(jī)!畫質(zhì)最強(qiáng)游戲 Crysis3評測

絕密細(xì)分的蟾蜍驚艷絕倫,完全可以以假亂真!

1

1

    作為新一代DX11游戲的畫質(zhì)標(biāo)桿,孤島危機(jī)3相比上一代對顯卡提出了更高的要求,而在這款代表著最尖端畫質(zhì)的游戲顯卡優(yōu)化做的非常出色,我們可以看到GTX 780GHz微弱優(yōu)勢領(lǐng)先R9 290X!

    這些年我們看到了不少形態(tài)各異的勞拉,從豐乳肥臀的動(dòng)作游戲主角到喜歡探索亞特蘭蒂斯文明的睿智貴族。不過我們從未見過這樣的勞拉。Crystal Dynamics的《古墓麗影9》讓我們看到了一個(gè)參加初次探險(xiǎn)的年輕勞拉,她遭遇海難被困在刀槍林立的小島上,必須將自己的智謀和求生欲望提升到極限。

1

    劇情介紹:故事從年少時(shí)期的勞拉開始,勞拉所乘坐的“堅(jiān)忍號”仿佛是被宿命所呼喚,在日本海的魔鬼海遭遇到了臺風(fēng),不幸擱淺。勞拉也被迫到島上開始自己的求生經(jīng)歷。

1

    古墓麗影9的游戲畫面較之前代上升了不少,游戲要求也提高了不少。

1

    這是我們開啟不同畫質(zhì)的游戲截圖對比,可以看出“高”特效的畫質(zhì)已經(jīng)非常不錯(cuò)了。

1

    古墓麗影9對A卡的優(yōu)化非常到位,但N卡驅(qū)動(dòng)后來也進(jìn)行了不斷的優(yōu)化,游戲性能得到大幅提升。在Benchmark測試中,即使是2560X1600分辨率+“最高”畫質(zhì)下,GTX 780GHz依然可以流暢運(yùn)行它。

  由EA DICE工作室開發(fā)的《戰(zhàn)地3》采用了最新的“寒霜2”引擎,完美支持DirectX 11,并且擁有強(qiáng)大的物理效果,最大的亮點(diǎn)還是光照系統(tǒng),其渲染的場景已近乎亂真的地步,視覺效果堪稱絕贊。游戲還支持即時(shí)晝夜系統(tǒng),為玩家營造一個(gè)親臨現(xiàn)場的真實(shí)環(huán)境。

索泰2GB顯卡測試

    寒霜2引擎最大的特點(diǎn)便是支持大規(guī)模的破壞效果。由于考慮到游戲的畫面表現(xiàn)以及開發(fā)成本,DICE放棄了以只支持DX9的WINDOWS XP操作系統(tǒng)。另外由于該引擎基于DX11研發(fā),向下兼容DX10,因而游戲只能運(yùn)行于WINDOWS VISTA以上的的操作系統(tǒng)。

索泰2GB顯卡測試

    在《戰(zhàn)地3》中,“寒霜引擎2”內(nèi)置的破壞系統(tǒng)已經(jīng)被提升至3.0版本,對于本作中的一些高層建筑來說,新版的破壞系統(tǒng)將發(fā)揮出電影《2012》那般的災(zāi)難效果,突如其來的建筑倒塌將震撼每一位玩家的眼球。

索泰2GB顯卡測試

  《戰(zhàn)地3》采用了ANT引擎制作人物的動(dòng)作效果。在此之前,ANT引擎已在EA Sports旗下的《FIFA》等游戲中得到應(yīng)用,不過在FPS游戲中使用尚屬首次。相較于Havok等物理引擎,用ANT引擎可以花費(fèi)較少的精力制作出逼真的效果。舉例來說,戰(zhàn)士在下蹲時(shí)會先低頭俯身、放低槍口,而不是像以前的游戲那樣頭、身、槍如木偶般同時(shí)發(fā)生位移。此外,ANT引擎也可以讓電腦AI的行動(dòng)更加合理。但這款大作目前并不能良好的兼容120Hz3D以及紅藍(lán)3D模式。 

1

1

   寒霜2引擎大作戰(zhàn)地三,是為數(shù)不多的畫面可以挑戰(zhàn)Crysis的游戲大作,而對核心和顯存的要求已經(jīng)超越了Crysis!越是要求變態(tài)的游戲,旗艦級顯卡就越喜歡,這款游戲N卡整體占優(yōu)!

    游戲介紹:《地鐵2033》(Metro 2033)是俄羅斯工作室4A Games開發(fā)的一款新作,也是DX11游戲的新成員。該游戲的核心引擎是號稱自主全新研發(fā)的4A Engine,支持當(dāng)今幾乎所有畫質(zhì)技術(shù),比如高分辨率紋理、GPU PhysX物理加速、硬件曲面細(xì)分、形態(tài)學(xué)抗鋸齒(MLAA)、并行計(jì)算景深、屏幕環(huán)境光遮蔽(SSAO)、次表面散射、視差貼圖、物體動(dòng)態(tài)模糊等等。

華麗背后的陷阱!A/N DX11顯卡再碰撞

開啟景深,模擬鏡頭感

    畫面設(shè)置:《地鐵2033》雖然支持PhysX,但對CPU軟件加速支持的也很好,因此使用A卡玩游戲時(shí)并不會因PhysX效果而拖累性能。該游戲由于加入了太多的尖端技術(shù)導(dǎo)致要求非常BT,以至于我們都不敢開啟抗鋸齒進(jìn)行測試,只是將游戲內(nèi)置的效果調(diào)至最高。游戲自帶Benchmark,這段畫戰(zhàn)斗場景并不是很宏大,但已經(jīng)讓高端顯卡不堪重負(fù)了。

    測試說明:如果說是CRYSIS發(fā)動(dòng)了DX10時(shí)代的顯卡危機(jī),那地鐵2033無疑是DX11時(shí)代的顯卡殺手!地鐵2033幾乎支持當(dāng)時(shí)可以采用的所有新技術(shù),在畫面雕琢上大肆鋪張,全然不顧顯卡們的感受,和CRYSIS如出一轍。然而CRYSIS靠著特效的堆積和不錯(cuò)的優(yōu)化,其驚艷絕倫的畫面和DX9C游戲拉開了距離,終究賺足了眼球;而地鐵則沒有這么好運(yùn)了,畫面固然不差,BUG卻是很多,招來了大量的非議。

1

1

    地鐵2033,一款銷量慘淡,游戲性被人遺忘但卻家喻戶曉的游戲,DX11游戲中的奇葩。這款游戲本來是A卡優(yōu)勢項(xiàng)目,但GTX 780GHz依然憑借強(qiáng)大的實(shí)力領(lǐng)先對手。

DX9/10/11三大戰(zhàn)役!A/N旗艦性能對決

    游戲引擎開發(fā)商BitSquid與游戲開發(fā)商Fatshark近日聯(lián)合公布了一個(gè)展示DX11強(qiáng)大技術(shù)的DEMO。這個(gè)名為《StoneGiant》(石巨人)的DEMO,可以讓玩家來測試自己PC顯卡的DX11性能。BitSquid Tech即將提供PC平臺的引擎,并且大概在今年第三季度將提供PS3和Xbox 360等其他平臺的引擎。

核心顯存誰重要?GTX460SE性能全測試 核心顯存誰重要?GTX460SE性能全測試

    畫面設(shè)置:StoneGiant是一款技術(shù)演示Demo,畫面做的非常精美,進(jìn)入之后可以選擇開啟關(guān)閉Tessellation以及DOF(DX11級別景深)進(jìn)行測試,這兩項(xiàng)技術(shù)都十分消耗資源,尤其是同時(shí)打開時(shí)。其中Tessellation技術(shù)對畫質(zhì)的改善最為明顯,測試時(shí)默認(rèn)開啟Tessellation、打開DOF進(jìn)行測試。

    測試方法:自帶Benchmark。

1

1

    看得出來,A卡的“壓力”確實(shí)很大,Tessellation特效使用的越多,其表現(xiàn)就越差,這是架構(gòu)特性使然,但總的來說和上代相比進(jìn)步很多,和N卡的差距已經(jīng)越來越小了,GTX780GHz依然表現(xiàn)搶眼。

    《Aliens vs. Predator》同時(shí)登陸PC、X360和PS3,其中PC版因?yàn)橹С諨X11里的細(xì)分曲面(Tessellation)、高清環(huán)境光遮蔽(HDAO)、計(jì)算著色器后期處理、真實(shí)陰影等技術(shù)而備受關(guān)注,是AMD大力推行的游戲之一,但是這樣的主題難免讓本作有很多不和諧的地方,暴力血腥場面必然不會少!發(fā)行商世嘉在2009年11月就曾明志,表示不會為了通過審查而放棄電子娛樂產(chǎn)品發(fā)行商的責(zé)任,因?yàn)橛螒蛞S持“異形大戰(zhàn)鐵血戰(zhàn)士”這一中心主題,無論畫面、玩法還是故事線都不能偏離。

超頻風(fēng)暴來襲 鐳風(fēng)HD6850 Xstorm評測

    畫面設(shè)置AVP原始版本并不支持AA,但升級至1.1版本之后,MSAA選項(xiàng)出現(xiàn)在了DX11增強(qiáng)特效當(dāng)中,當(dāng)然還支持Tessellation、HDAO、DirectCompute等招牌。該游戲要求不算太高,所以筆者直接將特效調(diào)至最高進(jìn)行測試。

    測試方法:游戲帶Benchmark,其中測試畫面頗代表意義,很好的體現(xiàn)了Tessellation異形身體以及HDAO等高級特效,希望這些特效能讓系統(tǒng)發(fā)揮所有潛力。

1

1

    作為A卡的優(yōu)勢項(xiàng)目,AVP測試環(huán)節(jié)中R9 290X終于在2560分辨率下戰(zhàn)勝了GTX780GHz,這主要是R9 290X 512bit大位寬和核心強(qiáng)勁的像素渲染速度的功勞!

    上面我們所有的游戲測試都是將設(shè)置手動(dòng)調(diào)整到最高,目的是測試顯卡的真實(shí)性能。但實(shí)際游戲的時(shí)候,根據(jù)顯卡的性能和游戲的需要,我們并不需要這么做,而在畫面質(zhì)量和游戲速度兩者之間達(dá)到非常好的平衡才是我們需要的結(jié)果,為了解決這個(gè)問題,NVIDIA發(fā)布了GeForce Experlence——一款智能設(shè)置游戲參數(shù)的軟件。

1

    這款軟件在NVIDIA官網(wǎng)提供下載,安裝之后第一次運(yùn)行,GeForce Experlence會從NVIDIA的云端下載用戶所需的游戲設(shè)置。

泰坦的孿生兄弟!NVIDIA GTX 780首測

▲ 通過云端硬件和游戲的數(shù)據(jù)匹配交換,GeForce Experlence可以優(yōu)化系統(tǒng)。

泰坦的孿生兄弟!NVIDIA GTX 780首測

▲ GeForce Experlence的系統(tǒng)要求,支援主流硬件和系統(tǒng)

泰坦的孿生兄弟!NVIDIA GTX 780首測

    GeForce Experlence支持手動(dòng)調(diào)整游戲設(shè)置,也支持一鍵智能優(yōu)化,云端會根據(jù)用戶的電腦硬件配置和游戲的要求設(shè)置特效的高低,保證所有GeForce用戶非常好的的游戲體驗(yàn)。

    當(dāng)然GeForce Experlence作為一款新興的軟件,還稱不上完美,目前主流的游戲GeForce Experlence均已經(jīng)提供支持,但依然有部分游戲不能用GeForce Experlence來智能優(yōu)化,目前GeForce Experlence最新版本為1.5版,相信在之后的版本中支持的游戲會越來越多。

    FurMark是oZone3D開發(fā)的一款OpenGL基準(zhǔn)測試工具,通過皮毛渲染算法來衡量顯卡的性能,同時(shí)還能借此考驗(yàn)顯卡的穩(wěn)定性。提供了多種測試選項(xiàng),比如全屏/窗口顯示模式、九種預(yù)定分辨率(也可以自定義)、基于時(shí)間或幀的測試形式、多種多重采樣反鋸齒(MSAA)、競賽模式等等。

    本來FurMark只是用來測試顯示卡的OpenGL效能,但是因?yàn)樗麩崃λ纳?火力非凡,所以可以拿來當(dāng)燒機(jī)軟件使用。它可以讓顯示卡跑出一般游戲達(dá)不到的高溫,以致于只要通過了FurMark考驗(yàn)過的顯示卡,跑游戲都不會出問題。

    我們的功耗測試方法是直接統(tǒng)計(jì)整套平臺的總功耗,既簡單、又直觀。測試儀器為微型電力監(jiān)測儀,它通過實(shí)時(shí)監(jiān)控輸入電源的電壓和電流計(jì)算出當(dāng)前的功率,這樣得到的數(shù)值就是包括CPU、主板、內(nèi)存、硬盤、顯卡、電源以及線路損耗在內(nèi)的主機(jī)總功率(不包括顯示器)。

G80禁錮的右半部分

    待機(jī)為windows7桌面下獲得的最小值;滿載是以1680X1050模式運(yùn)行Furmark時(shí)的最大值,F(xiàn)urmark能夠讓顯卡穩(wěn)定的以100%滿負(fù)載模式運(yùn)行,測得的功耗值比一般的游戲要高一些。

顯卡空閑整機(jī)功耗測試(顯示器除外)

1

顯卡滿載整機(jī)功耗測試(顯示器除外)

1

    待機(jī)功耗TITAN的表現(xiàn)不盡如人意,這次GTX 780GHz終于脫胎換骨,整機(jī)(不包含顯示器)只有79W,滿載以后功耗366W,比TITAN高但依然比R9 290X要略低??紤]到GTX 780GHz性能更強(qiáng)悍,這個(gè)表現(xiàn)非常不錯(cuò)。

顯卡空閑GPU溫度測試

火力全開很猛!新版GTX780GHz首發(fā)評測

顯卡滿載GPU溫度測試

火力全開很猛!新版GTX780GHz首發(fā)評測

    GTX 780GHz溫度測試成績更加不錯(cuò),由于核心頻率高于GTX 780,所以溫度達(dá)到了86℃,比GTX 780的81攝氏度高出2℃。

    和R9 290X公版相比,GTX 780GHz不僅全程噪音功耗控制的非常好,溫度方面的優(yōu)勢更是巨大,希望R9 290X的非公版產(chǎn)品能表現(xiàn)的更出色一些!

    隨著Fermi在2010年的推出,NVIDIA帶領(lǐng)顯卡行業(yè)進(jìn)入了高性能計(jì)算的新時(shí)代,尤其是CPU和GPU協(xié)同工作來解決計(jì)算密集型工作負(fù)載的混合計(jì)算模式被證明是可行之道。

1

1

    如今,Kepler架構(gòu)終極形態(tài)GK110又一次提高了游戲行業(yè)的標(biāo)準(zhǔn),在單臺計(jì)算機(jī)上進(jìn)行設(shè)計(jì)和渲染,GK110核心的工作站可以實(shí)時(shí)編輯更多圖層與特效,查看更大的地震數(shù)據(jù)集并與之互動(dòng)同時(shí)不會因數(shù)據(jù)堵塞而令系統(tǒng)失去響應(yīng),以GPU為核心的計(jì)算模式再次被發(fā)揚(yáng)光大。

     Kepler GK110設(shè)計(jì)的初衷就是利用卓越的電源效率達(dá)到最大化計(jì)算性能和吞吐量。該架構(gòu)有很多創(chuàng)新,如SMX、Dynamic Parallelism 和 Hyper‐Q等等,這些功能不僅使混合計(jì)算大大簡化,同時(shí)也簡化了編程接口,有望催生出更優(yōu)秀的軟件,適用于更廣泛的應(yīng)用。

GTX 780GHz的優(yōu)勢:

1. 由于和TITAN設(shè)計(jì)用料相似度非常高,GTX 780GHz公版提升頻率后性能超越TITAN,做工打成平手;
2. 溫度功耗控制的比較理想,相比競爭對手公版 R9 290X 優(yōu)勢明顯;
3. 成本比GTX TITAN稍低,但售價(jià)更低,幾乎可以說是業(yè)內(nèi)良心,據(jù)悉七彩虹GTX780GHz已經(jīng)殺到了3999人民幣,這個(gè)價(jià)格甚至要比AMD R9 290X 的官方指導(dǎo)價(jià)還要低不少。

● 編輯總結(jié):

    NVIDIA一直都在致力于將性能和圖形質(zhì)量的優(yōu)勢轉(zhuǎn)化為玩家們的真實(shí)游戲感受。GeForce GTX 700 系列顯卡在過去幾代產(chǎn)品的基礎(chǔ)之上實(shí)現(xiàn)了改進(jìn),而新版GTX780 GHz再次讓筆者領(lǐng)略到了快速、流暢而又運(yùn)行安靜的游戲體驗(yàn),旗艦顯卡就應(yīng)該做成這樣!■<

0人已贊

關(guān)注我們

泡泡網(wǎng)

手機(jī)掃碼關(guān)注