破解Intel倍頻魔咒!P67超2600到4.4G
類似于AMD的推土機(jī)、山貓,Intel SNB也使用了物理寄存器文件。Core 2、Nehalem架構(gòu)中,每個(gè)微指令需要的每個(gè)操作數(shù)都有一份拷貝,這就意味著亂序執(zhí)行硬件(調(diào)度器/重排序緩存/關(guān)聯(lián)隊(duì)列)必須要足夠大,以便容納微指令和相關(guān)數(shù)據(jù)。Core Duo時(shí)代是80-bit,加入SSE指令集后增至128-bit,現(xiàn)在又有了AVX指令集,并且位寬翻至256-bit。
RPF在寄存器文件中存儲(chǔ)微指令操作數(shù),而微指令在亂序執(zhí)行引擎中只會(huì)攜帶指向操作數(shù)的指針,而非數(shù)據(jù)本身。這就大大降低了亂序執(zhí)行硬件的功耗(轉(zhuǎn)移大量數(shù)據(jù)很費(fèi)電的),同時(shí)也減小了流水線的核心面積,數(shù)據(jù)流窗口也增大了三分之一。
SNB允許256-bit AVX指令借用128-bit的整數(shù)SIMD數(shù)據(jù)路徑,這就使用最小的核心面積實(shí)現(xiàn)了雙倍的浮點(diǎn)吞吐量,每個(gè)時(shí)鐘可以進(jìn)行兩個(gè)256-bit AVX操作。另外執(zhí)行硬件和路徑的上位128-bit是受電源柵極(Power Gate)控制的,標(biāo)準(zhǔn)128-bit SSE操作不會(huì)因?yàn)?56-bit擴(kuò)展而增加功耗。
最后,Intel給出了在如前所述的4種常見運(yùn)算下的AVX指令集加速比(AVX vs SSE over Sandy Bridge)。可以看出,在硬件環(huán)境不變的情況下,如果軟件支持AVX指令集的話,速度提升可達(dá)1.5-2.5倍之多!
AMD推土機(jī)架構(gòu)對(duì)AVX的支持則有所不同,使用了兩個(gè)128-bit SSE路徑來合并成256-bit AVX操作,即使八核心(四模塊)推土機(jī)的256-bit AVX吞吐量也要比四核心SNB少一半,不過實(shí)際影響完全取決于應(yīng)用程序如何利用AVX。
SNB的峰值浮點(diǎn)性能翻了一番,這就對(duì)載入和存儲(chǔ)單元提出了更高要求。Nehalem/Westmere架構(gòu)中有三個(gè)載入和存儲(chǔ)端口:載入、存儲(chǔ)地址、存儲(chǔ)數(shù)據(jù)。SNB架構(gòu)中載入和存儲(chǔ)地址端口是對(duì)稱的,都可以執(zhí)行載入或者存儲(chǔ)地址,載入帶寬因此翻倍。
SNB的整數(shù)執(zhí)行也有了改進(jìn),只是比較有限。ADC指令吞吐量翻番,乘法運(yùn)算可加速25%。
關(guān)注我們
