破解Intel倍頻魔咒!P67超2600到4.4G
泡泡網(wǎng)主板頻道3月19日 Sandybridge(SNB)是Intel 2011年的一次重大架構(gòu)更新,官方稱為“2011年第二代Intel Core處理器家族”,主要針對(duì)性能級(jí)和主流市場(chǎng)。這次新產(chǎn)品的發(fā)布,包含桌面及移動(dòng)版本共29款處理器、10款芯片組,相關(guān)產(chǎn)品超過(guò)500款。數(shù)量和規(guī)模超越了Intel過(guò)去任何一次新產(chǎn)品發(fā)布。
除了處理器,配套的芯片組、主板、散熱器等也會(huì)一并更新,其中芯片組是6系列,桌面上主要有P67、H67、H61等型號(hào),原生支持最多兩個(gè)SATA 6Gbps接口,但沒(méi)有原生USB 3.0,仍需要依賴第三方控制器,另外還有PCI-E 2.0 5GT/s高速總線。
6系列主板的插座將改為L(zhǎng)GA1155,不兼容當(dāng)前的LGA1156
原裝散熱器也隨著處理器功耗的降低而瘦身,特別是45W低功耗版本會(huì)搭配半高式矮版散熱器。從高級(jí)層面角度看,SNB架構(gòu)只是一次進(jìn)化,但是如果看看Nehalem/ Westmere以來(lái)晶體管變化的規(guī)模,絕對(duì)是一次革命。
老的Core 2引入了一種叫作循環(huán)流檢測(cè)器(LSD)的邏輯塊,檢測(cè)到CPU執(zhí)行軟件循環(huán)的時(shí)候就會(huì)關(guān)閉分支預(yù)測(cè)器、預(yù)取/解碼引擎,然后通過(guò)自身緩存的微指令(micro-ops)供給執(zhí)行單元。這種做法通過(guò)在循環(huán)執(zhí)行的時(shí)候關(guān)閉前端節(jié)省了功耗,并改進(jìn)了性能。
而SNB里又增加了一個(gè)微指令緩存(直接映射),用于在指令解碼時(shí)臨時(shí)存放。指令只要在解碼就會(huì)放入緩存,預(yù)取硬件獲得一個(gè)新指令的時(shí)候,會(huì)首先檢查它是否存在于微指令緩存中,如是則由緩存為其余的管線服務(wù),前端隨之關(guān)閉。解碼硬件是x86管線里非常復(fù)雜的部分,關(guān)閉它能夠節(jié)約大量的功耗。
這個(gè)緩存是直接映射的,能存儲(chǔ)大約1.5K微指令,相當(dāng)于6KB指令緩存。它位于一級(jí)指令緩存內(nèi),大多數(shù)程序的命中率都能達(dá)到80%左右,而且?guī)捯蚕啾纫患?jí)指令緩存更高、更穩(wěn)定。當(dāng)然真正的一級(jí)指令和數(shù)據(jù)緩存并沒(méi)有變,仍然都是32KB,合計(jì)64KB。
這看起來(lái)有點(diǎn)兒像Pentium 4的追蹤緩存,但最大的不同是它并不緩存追蹤,而是一個(gè)指令緩存,存儲(chǔ)的是微指令,而非x86指令(macro-ops)。
與此同時(shí),Intel還完全重新了一個(gè)分支預(yù)測(cè)單元(BPU),精確度更高,并在三個(gè)方面進(jìn)行了創(chuàng)新。
第一,標(biāo)準(zhǔn)的BPU都是2-bit預(yù)測(cè)器,每個(gè)分支都使用相關(guān)可信度(強(qiáng)/弱)進(jìn)行標(biāo)記。Intel發(fā)現(xiàn),這種雙模預(yù)測(cè)器所預(yù)測(cè)的分支幾乎都是強(qiáng)可信度的,因此SNB里多個(gè)分支都使用一個(gè)可信度位,而不是每個(gè)分支對(duì)應(yīng)一個(gè)可信度位,結(jié)果就是在分支歷史表中同樣的位可以對(duì)應(yīng)更多分支,進(jìn)而提高預(yù)測(cè)精確度。
第二,分支目標(biāo)同樣做了翻新。之前的架構(gòu)中分支目標(biāo)的大小都是固定的,但是大多數(shù)目標(biāo)都是相對(duì)近似的。SNB現(xiàn)在支持多個(gè)不同的分支目標(biāo)大小,而不是一味擴(kuò)大尋址能力、保存所有分支目標(biāo),因而浪費(fèi)的空間更少,CPU能夠跟蹤更多目標(biāo)、加快預(yù)測(cè)速度。
第三,提高分支預(yù)測(cè)器精度的傳統(tǒng)方法是使用更多的歷史位,但這只對(duì)要求長(zhǎng)指令的特定類型分支有效,SNB于是將分支按照長(zhǎng)短不同歷史進(jìn)行劃分,從而提高預(yù)測(cè)精度。
類似于AMD的推土機(jī)、山貓,Intel SNB也使用了物理寄存器文件。Core 2、Nehalem架構(gòu)中,每個(gè)微指令需要的每個(gè)操作數(shù)都有一份拷貝,這就意味著亂序執(zhí)行硬件(調(diào)度器/重排序緩存/關(guān)聯(lián)隊(duì)列)必須要足夠大,以便容納微指令和相關(guān)數(shù)據(jù)。Core Duo時(shí)代是80-bit,加入SSE指令集后增至128-bit,現(xiàn)在又有了AVX指令集,并且位寬翻至256-bit。
RPF在寄存器文件中存儲(chǔ)微指令操作數(shù),而微指令在亂序執(zhí)行引擎中只會(huì)攜帶指向操作數(shù)的指針,而非數(shù)據(jù)本身。這就大大降低了亂序執(zhí)行硬件的功耗(轉(zhuǎn)移大量數(shù)據(jù)很費(fèi)電的),同時(shí)也減小了流水線的核心面積,數(shù)據(jù)流窗口也增大了三分之一。
SNB允許256-bit AVX指令借用128-bit的整數(shù)SIMD數(shù)據(jù)路徑,這就使用最小的核心面積實(shí)現(xiàn)了雙倍的浮點(diǎn)吞吐量,每個(gè)時(shí)鐘可以進(jìn)行兩個(gè)256-bit AVX操作。另外執(zhí)行硬件和路徑的上位128-bit是受電源柵極(Power Gate)控制的,標(biāo)準(zhǔn)128-bit SSE操作不會(huì)因?yàn)?56-bit擴(kuò)展而增加功耗。
最后,Intel給出了在如前所述的4種常見(jiàn)運(yùn)算下的AVX指令集加速比(AVX vs SSE over Sandy Bridge)??梢钥闯觯谟布h(huán)境不變的情況下,如果軟件支持AVX指令集的話,速度提升可達(dá)1.5-2.5倍之多!
AMD推土機(jī)架構(gòu)對(duì)AVX的支持則有所不同,使用了兩個(gè)128-bit SSE路徑來(lái)合并成256-bit AVX操作,即使八核心(四模塊)推土機(jī)的256-bit AVX吞吐量也要比四核心SNB少一半,不過(guò)實(shí)際影響完全取決于應(yīng)用程序如何利用AVX。
SNB的峰值浮點(diǎn)性能翻了一番,這就對(duì)載入和存儲(chǔ)單元提出了更高要求。Nehalem/Westmere架構(gòu)中有三個(gè)載入和存儲(chǔ)端口:載入、存儲(chǔ)地址、存儲(chǔ)數(shù)據(jù)。SNB架構(gòu)中載入和存儲(chǔ)地址端口是對(duì)稱的,都可以執(zhí)行載入或者存儲(chǔ)地址,載入帶寬因此翻倍。
SNB的整數(shù)執(zhí)行也有了改進(jìn),只是比較有限。ADC指令吞吐量翻番,乘法運(yùn)算可加速25%。
之前的Nehalem/Westmere每個(gè)核心都與三級(jí)緩存單獨(dú)相連,都需要大約1000條連線,而這種做法的缺點(diǎn)是如果頻繁訪問(wèn)三級(jí)緩存,效果可能不會(huì)太好。
SNB又整合了GPU圖形核心、視頻轉(zhuǎn)碼引擎,并共享三級(jí)緩存。Intel并沒(méi)有沿用此前的做法,再增加2000條連線,而是像服務(wù)器版的Nehalem-EX、Westmere-EX那樣,引入了環(huán)形總線(Ring Bus),每個(gè)核心、每一塊三級(jí)緩存(LLC)、集成圖形核心、媒體引擎、系統(tǒng)助手(System Agent)都在這條線上擁有自己的接入點(diǎn),形象地說(shuō)就是個(gè)“站臺(tái)”。
SandyBridge的環(huán)形總線
這條環(huán)形總線由四條獨(dú)立的環(huán)組成,分別是數(shù)據(jù)環(huán)(DT)、請(qǐng)求環(huán)(QT)、響應(yīng)環(huán)(RSP)、偵聽(tīng)環(huán)(SNP)。每條環(huán)的每個(gè)站臺(tái)在每個(gè)時(shí)鐘周期內(nèi)都能接受32字節(jié)數(shù)據(jù),而且環(huán)的訪問(wèn)總會(huì)自動(dòng)選擇最短的路徑,以縮短延遲。隨著核心數(shù)量、緩存容量的增多,緩存帶寬也隨時(shí)同步增加,因而能夠很好地?cái)U(kuò)展到更多核心、更大服務(wù)器集群。
這樣,SNB每個(gè)核心的三級(jí)緩存帶寬都是96GB/s,堪比高端Westmere,而四核心系統(tǒng)更是能達(dá)到384GB/s,因?yàn)槊總€(gè)核心都在環(huán)上有一個(gè)接入點(diǎn)。
三級(jí)緩存的延遲也從大約36個(gè)周期減少到26-31個(gè)周期。此前預(yù)覽的時(shí)候我們就已經(jīng)感覺(jué)到了這一點(diǎn),現(xiàn)在終于有了確切的數(shù)字。三級(jí)緩存現(xiàn)在被劃分成多個(gè)區(qū)塊,分別對(duì)應(yīng)一個(gè)CPU核心,都在環(huán)形總線上有自己的接入點(diǎn)和完整緩存管線。每個(gè)核心都可以訪問(wèn)全部三級(jí)緩存,只是延遲不同。此前三級(jí)緩存只有一條緩存管線,所有核心的請(qǐng)求都必須通過(guò)它,現(xiàn)在很大程度上分而治之了。
和以前不同的是,三級(jí)緩存的頻率現(xiàn)在也和核心頻率同步,因而速度更快,不過(guò)缺點(diǎn)是三級(jí)緩存也會(huì)隨著核心而降頻,所以如果CPU降頻的時(shí)候GPU又正好需要訪問(wèn)三級(jí)緩存,速度就慢下來(lái)了。
SNB的CPU性能相比現(xiàn)在提升了10-30%,進(jìn)化到第六代的GPU圖形性能則會(huì)輕松翻好幾番。
不過(guò)這么做并沒(méi)有說(shuō)起來(lái)這么簡(jiǎn)單。NVIDIA GF100核心費(fèi)了九牛二虎之力,SNB其實(shí)也差不多,同樣進(jìn)行了全新設(shè)計(jì)。
可編程著色硬件被稱為EU,包含著色器、核心、執(zhí)行單元等,可以從多個(gè)線程雙發(fā)射時(shí)取指令。內(nèi)部ISA映射和絕大多數(shù)DX10 API指令一一對(duì)應(yīng),架構(gòu)很像CISC,結(jié)果就是有效擴(kuò)大了EU的寬度,IPC也顯著提升。
抽象數(shù)學(xué)運(yùn)算由EU內(nèi)的硬件負(fù)責(zé),性能得以同步提高。Intel表示,正弦(sine)、余弦(cosine)操作的速度比現(xiàn)在的HD Graphics提升了幾個(gè)數(shù)量級(jí)。
體現(xiàn)在規(guī)格上,芯片組集成時(shí)代,每個(gè)線程平均64個(gè)寄存器,Westmere HD Graphics提高到平均80個(gè),SNB則每個(gè)線程固定為120個(gè)。
所有這些改進(jìn)加起來(lái),SNB里每個(gè)EU的指令吞吐量都比之前的HD Graphics增加了一倍。
而SNB集成的GPU圖形核心分為兩大版本,分別擁有6個(gè)、12個(gè)EU。首批發(fā)布的移動(dòng)版全部是12個(gè)EU,桌面版則根據(jù)型號(hào)不同而有兩種配置,高端12個(gè)、低端6個(gè)。得益于每個(gè)EU吞吐量翻番、運(yùn)行頻率更高、共享三級(jí)緩存等特點(diǎn),即使只有六個(gè)的時(shí)候性能也會(huì)相當(dāng)令人滿意。
而且SNB中還有一個(gè)媒體處理器,專門(mén)負(fù)責(zé)視頻解碼、編碼。新的硬件加速解碼引擎中,整個(gè)視頻管線都通過(guò)固定功能單元進(jìn)行解碼。Intel據(jù)此宣稱,SNB在播放視頻的時(shí)候功耗可降低一半,速度卻是大幅提升。
英特爾在最新一代的英特爾® 微體系架構(gòu)(代號(hào) Sandy Bridge)上對(duì)英特爾® 睿頻加速技術(shù)進(jìn)行了優(yōu)化,以便在需要時(shí)提供更高的性能。英特爾® 睿頻加速 2.0 技術(shù)可以在處理器內(nèi)核低于功率、電流和溫度規(guī)范限制條件下運(yùn)行時(shí),使處理器內(nèi)核自動(dòng)以比基準(zhǔn)頻率更快的速度運(yùn)行。
當(dāng)處理器在低于這些限制條件的情況下運(yùn)行并且用戶工作負(fù)載需要額外的性能時(shí),處理器頻率將動(dòng)態(tài)增加,直到達(dá)到頻率上限。英特爾® 睿頻加速 2.0 技術(shù)可同時(shí)運(yùn)行多種算法來(lái)管理電流、電源和溫度,以便最大程度地提高性能和能源效率。注意:英特爾® 睿頻加速 2.0 技術(shù)允許處理器在短時(shí)間內(nèi)以高于其額定上限功率 (TDP) 的功率級(jí)別運(yùn)行,以便實(shí)現(xiàn)性能最大化。
Lynnfield Core i7/i5首次引入了智能動(dòng)態(tài)加速技術(shù)“Turbo Boost”(睿頻),能夠根據(jù)工作負(fù)載,自動(dòng)以適當(dāng)速度開(kāi)啟全部核心,或者關(guān)閉部分限制核心、提高剩余核心的速度,比如一顆熱設(shè)計(jì)功耗(TDP)為95W的四核心處理器,可能會(huì)三個(gè)核心完全關(guān)閉,最后一個(gè)大幅提速,一直達(dá)到95W TDP的限制。
現(xiàn)有處理器都是假設(shè)一旦開(kāi)啟動(dòng)態(tài)加速,就會(huì)達(dá)到TDP限制,但事實(shí)上并非如此,處理器不會(huì)立即變得很熱,而是有一段時(shí)間發(fā)熱量距離TDP還差很多。
SandyBridge利用這一點(diǎn)特性,允許功耗控制單元在短時(shí)間內(nèi)將活躍核心加速到TDP以上,然后慢慢降下來(lái)。控制單元會(huì)在空閑時(shí)跟蹤散熱剩余空間,在系統(tǒng)負(fù)載加大時(shí)予以利用。處理器空閑的時(shí)間越長(zhǎng),能夠超越TDP的時(shí)間就越長(zhǎng),但最長(zhǎng)不超過(guò)25秒鐘。
之前我們也已經(jīng)說(shuō)過(guò)了,SandyBridge GPU圖形核心也可以獨(dú)立動(dòng)態(tài)加速,最高可達(dá)驚人的1.35GHz。如果軟件需要更多CPU資源,那么CPU就會(huì)加速、GPU同時(shí)減速,反之亦然。
無(wú)法再進(jìn)行外頻超頻:
由于SandyBridge的整合度非常高,UnCore部分和內(nèi)存控制器以及QPI總線的頻率都與處理器外頻相關(guān),可以說(shuō)外頻是牽一發(fā)而動(dòng)全身,為了防止用戶超頻外頻時(shí)出現(xiàn)意外情況(官方說(shuō)法,筆者不信),Intel此次將外頻鎖定在了約105MHz——基本上超到105MHz還很穩(wěn)定,106MHz以上就連Bios都進(jìn)不去……
對(duì)我們來(lái)說(shuō),Sandybridge有驚喜,也有遺憾。盡管早有傳言,但是到了驗(yàn)證真相的這一刻,還是不免令人感嘆:過(guò)去可以隨心所欲的進(jìn)行超頻的時(shí)代不復(fù)存在了。只有特定的型號(hào)(后綴帶K字)才開(kāi)放了倍頻,這也就意外著以后用戶想要超頻的話,必須購(gòu)買(mǎi)價(jià)格更高的“K”系列處理器,而普通版SandyBridge則完全無(wú)法超頻。
果真是這樣么?方法還是有的,雖然不能手動(dòng)調(diào)整倍頻,但是我們可以充分挖掘睿頻的潛力。
支持1333以上內(nèi)存,現(xiàn)在i7 2600K非常好的搭檔無(wú)疑是B3步進(jìn)的P67芯片組。
PCPOP.COM評(píng)測(cè)室 | |
硬件系統(tǒng)配置 | |
處理器 |
Intel Core i7 2600 |
(4核 / 8線程 / 100MHz*34=3.4GHz / 8MB共享緩存) | |
主 板 |
ASUS P8P67 |
(Intel SandyBridge +Realtek ALC889 8聲道音效芯片) | |
內(nèi) 存 |
DDR3 1600 4GB(2GB×2條) |
(9-9-9-24-1T) | |
硬 盤(pán) |
日立 7200.12 SATA |
(1TB / 7200RPM / 32M緩存 / 30GB NTFS系統(tǒng)分區(qū)) | |
電 源 |
Tagan BZ1100W |
六路+12V聯(lián)合輸出功率960W,單路+12V最大電流20A | |
顯示器 |
DELL 3007 |
(30英寸LCD / 2560*1600分辨率) |
操 作 系 統(tǒng) | |
操作系統(tǒng) |
Microsoft Windows 7 |
(中文版 / 64BIT 旗艦版) |
硬件測(cè)試平臺(tái)
之前所有的Intel官方文檔都顯示i7 2600(K)倍頻34,最大睿頻38倍。如果不在主板里做設(shè)置,確實(shí)也是這樣。所以很多人都認(rèn)為SNB i7 2600的極限頻率就是3.8G。
首發(fā)桌面平臺(tái)SNB處理器,官方注明Max Single Core Turbo 3.8G
淘寶商家也宣稱最高睿頻3800MHz
但我們發(fā)現(xiàn)以下各項(xiàng)可在指定的工作負(fù)載上設(shè)定采用英特爾® 睿頻加速 2.0 技術(shù)的上限:
1、活躍內(nèi)核的數(shù)量 2、預(yù)估的電流消耗 3、預(yù)估的功耗 4、處理器溫度,如果幾個(gè)條件都滿足,是否能Turbo到更高的水準(zhǔn)呢?
1、進(jìn)入顯卡bios高級(jí)模式,在Ai Twerker中,Turbo倍頻 選擇“操作系統(tǒng)中最大的Turbo”
2、 將Turbo值設(shè)置為42(Intel隱藏睿頻的最大值)
3、Ai 超頻調(diào)整設(shè)為手動(dòng)。
4、外頻設(shè)置為105(再大可能會(huì)被Intel禁止使用導(dǎo)致不穩(wěn)定)
外頻改變對(duì)內(nèi)存頻率也產(chǎn)生了影響,華碩p67中可以直觀的看到。
四核八線程可以睿頻到4.2G,幾十秒后穩(wěn)定到4.1G
三核六線程滿載睿頻(點(diǎn)擊放大)
雙核四線程可以穩(wěn)定到4.3G
單核雙線程滿載穩(wěn)定到睿頻4.4G!
媒體送測(cè)的CPU均為ES版,請(qǐng)注意,正顯的SNB i7 2600是鎖倍頻的,請(qǐng)不要懷疑因?yàn)槭荅S版才能超,這點(diǎn)上和市售版是一樣的。
不打開(kāi)睿頻的時(shí)候i7 2600約250秒,破解睿頻之后達(dá)到了214秒,性能提升明顯。
看完枯燥的數(shù)據(jù)和理論,放個(gè)360輕松一下~勿怪
移動(dòng)平臺(tái)處理器是否也能破解Turbo?
● 全文總結(jié):
雖然SNB并不像Intel宣稱的那樣是一個(gè)全新架構(gòu),嚴(yán)格來(lái)說(shuō)只是現(xiàn)有架構(gòu)的改進(jìn)和增強(qiáng),本質(zhì)并沒(méi)有變,但很多模塊也進(jìn)行了徹底重新設(shè)計(jì),細(xì)節(jié)之處的優(yōu)化和增強(qiáng)也大大提高了執(zhí)行效率,SNB在功能特性、性能、功耗等各方面的表現(xiàn)較之前的酷睿都更加出色。
Intel決定將一些產(chǎn)品的倍頻鎖死,這樣一來(lái)改進(jìn)的Turbo 2.0動(dòng)態(tài)加速技術(shù)就顯得更有意義。它意味著我們可以在不同情況下都能很好地釋放多核心、高頻率處理器的潛力,不會(huì)面臨性能緊缺、不會(huì)造成資源浪費(fèi),還能很好地協(xié)調(diào)CPU、GPU資源。
如果在主板中進(jìn)一步打開(kāi)設(shè)置,睿頻的潛力則能完全被釋放,如此睿頻的普通版處理器和超頻版2XXXK差距進(jìn)一步縮小,尤其是單核(雙線程)可達(dá)4.4G的高頻對(duì)于游戲玩家非常實(shí)用。而Intel采取固執(zhí)的市場(chǎng)策略,在之后的產(chǎn)品中禁止額外的睿頻呢?只能看推土機(jī)是否給力了。■<
關(guān)注我們
