Phenom VS Penryn 雙雄大戰(zhàn)鎖定年底
● Penryn :基于Core 微架構(gòu)再作改良
除了采用更先進(jìn)的45奈米制程及加入全新 SSE4 指令集外,Penryn 亦基于Intel Core微架構(gòu)設(shè)計作出多項改良,稱為「Enhanced Intel Core Microarchitecture」,并加入了:
Fast Radix-16 Divider(快速 Radix-16 除法器)
Super Shuffle Engine(超級洗牌引擎)
Split Load Cache Enhancement(增強(qiáng)型緩存拆分負(fù)載)
Improved Store Forwarding(存儲轉(zhuǎn)發(fā))
Faster OS Primitive Support(高速操作系統(tǒng)同步原始支持)
Virtualization Performance Improvements (增強(qiáng)的Intel 虛擬化技術(shù))
Deep Power Down Technology(深度節(jié)能技術(shù))
Enhanced Dynamic Acceleration Technology(增強(qiáng)型動態(tài)加速技術(shù))
據(jù)Intel資深工程師兼Penryn微架構(gòu)主管Stephen Fischer表示,與上代處理器產(chǎn)品相比,Penryn處理器在繪圖效能約超過15%、視訊編碼平均可提高20%、3D內(nèi)容制作可提高逾30%,3D游戲效能更可高達(dá)40%,視乎軟件設(shè)計而定。
◎ Enhanced Core MA :Fast Radix-16 Divider
Intel在Core微架構(gòu)中支持每個周期可處理多達(dá)4個指令(對比舊有處理器最多只能同時處理3個指令),且重新采用較高效率的14層Pipeline Stages,為提升分支預(yù)測的能力及準(zhǔn)確性,Branch Predictor的Bandwitdh提升至20Byte (K8、Banias 為16B,Netburst為4B),令指令執(zhí)行效率大大提高。
此外,Core微架構(gòu)更加入Macro-Fusion技術(shù),可把部份指令組合成單一Micro-Op 指令,令特定情況下每個周期可執(zhí)行5個指令,更保留Micro-op Fusion技術(shù),把相同的Macro-ops混合成單一個Micro-ops 透過Out-of-order邏輯可減少10% 的Micro-op指令執(zhí)行數(shù),除提升核心的執(zhí)行效率,同時也保持高能源效益。
Penryn處理器除沿襲Core微架構(gòu)的優(yōu)點外,并進(jìn)一步改良除法器的設(shè)計,在科學(xué)計算、三維坐標(biāo)轉(zhuǎn)換和其它數(shù)學(xué)運算密集型功能中,其帶來約2倍的除法器速度,所包含的新一代的快速除法技術(shù)稱為 Radix-16,可加速浮點和整數(shù)的除法運算速度。
據(jù)了解,基數(shù)為4的算法會在每次迭代運算中計算其2位的商值,當(dāng)提高到基數(shù)為16的算法時,則允許在每次迭代中計算4位的商值,進(jìn)而使延遲縮減一半。
◎ Enhanced Core MA :Super Shuffle Engine
Intel在 Core微架構(gòu)中加入128Bit-SIMD interger arithmetic及128bit SIMD雙倍精準(zhǔn)度Floating-Point Operations單元。舊有的處理器執(zhí)行128Bit的SSE、SSE2及SSE3指令時,需要把指令分拆為2個64Bit指令,在2個頻率周期完成,但Core微架構(gòu)則只需要1個頻率周期便能完成,執(zhí)行效率提升達(dá)1倍,現(xiàn)時SSE指令集已普遍使用于主流軟件中,包括繪圖、影像、音效、加密、數(shù)學(xué)運算等用途,單周期128Bit處理器能力利用頻率以外的方法提升效能。
另一方面,Penryn處理器也有顯著改良,其加入全新Super Shuffle Engine,令SSE 指令運算更具效率,以往處理Unpacking、Packing、Align Concatenated Sources、Wide Shifts、Insertion及Horizontal Arithmetic Functions Setup等128Bit寬度的字節(jié)、字及Dword SSE數(shù)據(jù)時,均無法在單一周期內(nèi)完成,但Super Shuffle Engine設(shè)計除可讓這些不同性質(zhì)的128Bit SSE指令,在1個周期內(nèi)便可完成,減低延遲及吞吐量外,更不用在軟件端中作出改良即可實現(xiàn)。
關(guān)注我們
