泰坦的孿生兄弟!NVIDIA GTX 780首測
Kepler GK110 中的新功能,如 CUDA 內(nèi)核能夠利用 Dynamic Parallelism 在 GPU 上直接啟動(dòng)工作,需要 Kepler 中 CPU‐to‐GPU 工作流提供比 Fermi 設(shè)計(jì)增強(qiáng)的功能。Fermi中,線程塊的Grid可由CPU啟動(dòng),并將一直運(yùn)行到完成,通過 CUDA Work Distributor (CWD) 單元?jiǎng)?chuàng)建從主機(jī)到SM的簡單單向工作流。Kepler GK110目的是通過GPU有效管理CPU和CUDA創(chuàng)建的工作負(fù)載來改進(jìn) CPU‐到‐GPU 的工作流。
我們討論了 Kepler GK110 GPU 允許內(nèi)核直接在GPU上啟動(dòng)工作的能力,重要的是要理解在Kepler GK110 架構(gòu)所做的變化,促成了這些新功能。Kepler 中,Grid 可從 CPU 啟動(dòng),就和Fermi 的情況一樣,但是新 Grid 還可通過編程由 CUDA 在 Kepler SMX 單元中創(chuàng)建。要管理CUDA 創(chuàng)建的 Grid 和主機(jī)生成的 Grid,在 Kepler GK110 中引入新 Grid Management Unit (GMU)。該控制單元管理并優(yōu)先化傳送到 CWD 要發(fā)送到 SMX 單元執(zhí)行的 Grid。
Kepler 中的 CWD 保留準(zhǔn)備好調(diào)度的 Grid,并能調(diào)度 32 個(gè)活動(dòng)的 Grid,這是 Fermi CWD 容量的兩倍。Kepler CWD 通過雙向鏈接進(jìn)行通信,允許 GMU 暫停新 Grid 的調(diào)度并保留掛起和暫停的 Grid,直到需要。GMU 也有到 Kepler SMX 單元的直接連接,允許 Grid 通過 Dynamic Parallelism 在 GPU 上啟動(dòng)其他工作,以將新工作傳回到 GMU 進(jìn)行優(yōu)先化和調(diào)度。如果暫停調(diào)度的額外工作量的內(nèi)核,GMU 將保持其為不活動(dòng),知道以來工作完成。
重新設(shè)計(jì)的 Kepler HOST 到 GPU 的工作流顯示新 Grid Management Unit,允許其管理主動(dòng)調(diào)度的 Grid、暫停調(diào)度、保留掛起和暫停的 Grid。
NVIDIA GPUDirect
當(dāng)處理大量的數(shù)據(jù)時(shí),提高數(shù)據(jù)吞吐量并降低延遲,對于提高計(jì)算性能是至關(guān)重要的。Kepler GK110 支持NVIDIA GPUDirect 中的 RDMA,目的是通過允許第三方設(shè)備,如 IB 適配器、NIC 和 SSD,直接訪問 GPU 內(nèi)存‐來提高性能。使用 CUDA 5.0 時(shí),GPUDirect 提供以下重要功能:
無需 CPU方面的數(shù)據(jù)緩沖, NIC 和 GPU 之間的直接內(nèi)存存取 (DMA)
顯著改善 GPU和其他網(wǎng)絡(luò)節(jié)點(diǎn)之間的 MPISend/ MPIRecv 效率。
消除了 CPU 帶寬和延遲的瓶頸
與各種第三方網(wǎng)絡(luò)、捕獲和存儲(chǔ)設(shè)備一起工作
如逆時(shí)偏移(用于石油和天然氣勘探地震成像)這樣的應(yīng)用程序,將大量影像數(shù)據(jù)分布在多個(gè)GPU。數(shù)以百計(jì)的 GPU 必須合作,以緊縮的數(shù)據(jù),經(jīng)常通信中間結(jié)果 GPUDirect 利用 P2P 和RDMA 功能為服務(wù)器內(nèi)或服務(wù)器之間“ GPU‐ 到‐GPU” 的通信的情況分配更高的總帶寬。
Kepler GK110 還支持其他功能 GPUDirect,如 Peer‐to‐Peer 和 GPUDirect for Video。
GPUDirect RDMA 允許網(wǎng)絡(luò)適配器這樣的第三方設(shè)備訪問GPU內(nèi)存,轉(zhuǎn)換為跨節(jié)點(diǎn)GPU之間直接傳輸。
關(guān)注我們
