国产成人福利在线视频播放下载,成人无码www免费视频在线看,放荡的美妇在线播放,大地资源网最新更新,国产成人精品日本亚洲网站

泡泡網(wǎng)CPU頻道 PCPOP首頁(yè)      /      CPU     /      評(píng)測(cè)    /    正文

性能之王還是不進(jìn)反退,Prescott全

    2003年后期,為了暫時(shí)壓制AMD公司新推出的Athlon64系列處理器,Intel不惜工本在舊有的P4核心基礎(chǔ)上,增加2MB三級(jí)緩存,推出了價(jià)格高昂的P4至尊版(3.2GHz頻率的該型號(hào)處理器,千片采購(gòu)價(jià)就高達(dá)700多美元)。但僅憑這樣的高價(jià)處理器,在主流市場(chǎng)顯然是站不住腳的;而舊有的Northwood核心P4在面對(duì)Athlon64系列CPU的威脅時(shí),在某些應(yīng)用中已經(jīng)略顯疲態(tài)。

    在原有的P4架構(gòu)基礎(chǔ)上,要再一次奪取先機(jī)并保持處理器的制作成本在可接受的范圍之內(nèi),就必須進(jìn)一步改進(jìn)P4處理器的內(nèi)部架構(gòu)和制作工藝。這樣才可能通過(guò)提升處理器的工作頻率,在新一輪的CPU大戰(zhàn)中站穩(wěn)腳跟。


  
    2004年2月1日,Intel終于推出了舉世矚目的90nm制程P4E(Prescott核心P4)系列處理器。首批推出的Prescott核心P4處理器共有4款,分別為:P4 2.8A、P4 2.8E、P4 3.2E以及P4 3.4E。其中P4 2.8A前端總線數(shù)據(jù)傳輸頻率僅為533MHz,并且不支持超線程技術(shù),以后綴“A“來(lái)標(biāo)識(shí)。而其余的型號(hào)均為800MHz前端總線數(shù)據(jù)傳輸頻率,都開(kāi)啟了超線程功能,以后綴“E“標(biāo)識(shí)。

    那么,此款處理器對(duì)P4處理器原有的Netburst架構(gòu)究竟作出了什么改進(jìn),使用了哪些新的處理器制造技術(shù),會(huì)不會(huì)如Athlon64系列那樣加入64位擴(kuò)展,初期推出的幾款處理器實(shí)際的性能表現(xiàn)又會(huì)如何呢?以下,我們就為大家一一揭開(kāi)謎底。<

    在我們的上一篇文章中,我們已經(jīng)看到AMD K8核心處理器為了進(jìn)一步提升頻率,將流水線級(jí)數(shù)由K7的10級(jí)增加到了12級(jí)。而在Prescott核心的P4處理器中,為了進(jìn)一步提升處理器的頻率,Intel把Trace Cache之后的流水線級(jí)數(shù)變本加厲,由以前的20級(jí)增加到了30級(jí)。這恐怕是此款處理器最引人注目的改變之一了,也因此引來(lái)了諸多媒體的議論。

    我們都知道,處理器流水線基本可以劃分為:指令取→指令解碼→指令執(zhí)行→載入/儲(chǔ)存→寫(xiě)回寄存器這五個(gè)部分。通過(guò)這樣的流水線設(shè)計(jì),就可以在每條流水線上同時(shí)處理一條以上的指令。為了敘述方便,我們可以把流水線假想為一組傳送帶,如下圖:

 處理器長(zhǎng)短流水線示意圖(點(diǎn)擊放大)

    短流水線好比節(jié)數(shù)較少,單節(jié)皮帶行程長(zhǎng)的模式。它的單節(jié)皮帶負(fù)載能力更大。而長(zhǎng)流水線則好比節(jié)數(shù)較多,單節(jié)皮帶行程短的模式。它的單節(jié)皮帶負(fù)載能力較弱。

    雖然從長(zhǎng)度上看,由于長(zhǎng)流水線級(jí)數(shù)較多,因此行程也較遠(yuǎn),在皮帶傳送速度相同(均為1M/s)的情況下,當(dāng)然是短流水線占優(yōu)勢(shì)。但隨著工廠技術(shù)的發(fā)展,必須提高產(chǎn)量。此時(shí)我們就需要提高傳送帶的送貨量。顯然我們可以想到最簡(jiǎn)單的方法就是增加皮帶的傳送速度。

    然而在短流水線的傳送帶中,由于單節(jié)皮帶較為粗長(zhǎng),本身質(zhì)量較大,因此要進(jìn)一步提速就顯得十分困難(極限速度可提升到1.2M/s)。相比之下長(zhǎng)流水線設(shè)計(jì)的傳送帶則由于單節(jié)皮帶質(zhì)量小,提速就顯得容易得多(極限速度可提升到2M/s)。這樣我們通過(guò)給長(zhǎng)流水線傳送帶大幅度提速,在流水線各環(huán)節(jié)同時(shí)正常運(yùn)轉(zhuǎn)的情況下,實(shí)現(xiàn)了超越短流水線傳送帶的目的。

    顯然,如果在此基礎(chǔ)上進(jìn)一步增加并行傳送帶的組數(shù),構(gòu)成“超標(biāo)量“傳送帶,那么長(zhǎng)流水線的速度優(yōu)勢(shì)還將得到更好的體現(xiàn)。

    由于上述的優(yōu)點(diǎn),多數(shù)處理器在升級(jí)換代時(shí),基本都采取了增加流水線級(jí)數(shù)的策略,以下,我們給出Intel公司幾款具有代表性處理器的流水線布置圖,以供大家參考。

 Intel系列處理器流水線級(jí)數(shù)簡(jiǎn)圖(點(diǎn)擊放大)

    需要注意的是,P4系列處理器的流水線級(jí)數(shù)尚不包括前面的取指令、解碼部分。通過(guò)增加流水線的級(jí)數(shù),Intel宣稱Prescott核心P4處理器的工作頻率將可達(dá)到5GHz左右。

    但是凡事有利必有弊。首先,長(zhǎng)流水線的優(yōu)勢(shì)必須在提速到達(dá)一定程度之后才能夠體現(xiàn)出來(lái)??墒翘幚砥鲝S家在長(zhǎng)流水線處理器推出的初期,由于市場(chǎng)等多方面因素,又不可能馬上以較高的頻率推出新處理器。因此,這些處理器在某些條件下自然就會(huì)出現(xiàn)不盡人意的情況。其次,Prescott的超長(zhǎng)流水線設(shè)計(jì)和較高的頻率,也將帶來(lái)其它方面的一系列問(wèn)題。為了減小這些問(wèn)題可能帶來(lái)的損失,在Prescott中,Intel采取了許多措施進(jìn)行補(bǔ)救。下面,我們就進(jìn)一步為大家說(shuō)明。<

    要分辨兩棟建筑物的異同,沒(méi)有內(nèi)部構(gòu)造圖是不行的,對(duì)于處理器來(lái)說(shuō)也是如此。所以,首先我們還是來(lái)看兩張Prescott核心架構(gòu)與Northwood的架構(gòu)對(duì)比圖吧:

  

 Prescott與Northwood的架構(gòu)對(duì)比圖(點(diǎn)擊放大)

    我們可以看到,上圖中最明顯的變化有三處:

    ◎ 指令追蹤緩存(Trace Cache,作用類似于以前的一級(jí)指令緩存)所用的分支目標(biāo)緩存(Trace Cache BTB,主要用于動(dòng)態(tài)分支預(yù)測(cè)),條目數(shù)(Entries)由512條增加到2000條;

    ◎ 一級(jí)數(shù)據(jù)緩存容量倍增,由原來(lái)的8KB增加到了16KB。緩存聯(lián)合路數(shù)也隨之倍增,由原來(lái)的4路聯(lián)合(4ways)增加到8路聯(lián)合(8ways);

    ◎ 二級(jí)緩存容量也由原來(lái)的512KB增加到了1MB,緩存聯(lián)合路數(shù)則保持不變。

    考慮到讀者對(duì)于緩存已經(jīng)比較熟悉,因此我們先就涉及到緩存變化的后兩個(gè)項(xiàng)目進(jìn)行分析。而對(duì)于大家還不太熟悉的BTB,我們將放到后面再作說(shuō)明。

    前面我們已經(jīng)提到,Prescott的頻率可高達(dá)5GHz左右,而歸根結(jié)底,處理器需要內(nèi)存為其輸送數(shù)據(jù)。處理器在如此高的頻率下工作,即使是尚未走向主流的下一代DDRⅡ內(nèi)存,在沒(méi)有輔助措施的條件下也會(huì)略顯吃力,更不必說(shuō)目前的DDR內(nèi)存了。

    內(nèi)存系統(tǒng)跟不上處理器的腳步,是長(zhǎng)久以來(lái)存在于系統(tǒng)設(shè)計(jì)中的一個(gè)問(wèn)題。對(duì)于這個(gè)問(wèn)題,AMD公司通過(guò)在K8處理器中內(nèi)置內(nèi)存控制器,并增加二級(jí)緩存容量到1MB來(lái)解決。而同期推出的P4至尊版則沒(méi)有變動(dòng)其它機(jī)構(gòu),僅追加了2MB三級(jí)緩存。至于Prescott,則主要采用了以下三個(gè)方面的措施進(jìn)行解決。

    ● 最容易理解的措施——增加一級(jí)、二級(jí)緩存的容量。我們已經(jīng)從對(duì)比圖中看到了。不過(guò)需要提醒大家注意的是,雖然增大緩存的容量有利于緩解慢速的內(nèi)存所帶來(lái)的影響,但在某種條件下,也可能隨之提高緩存的延遲,在Prescott中就出現(xiàn)了這種現(xiàn)象。以下就是我們使用ScienceMark 2.0測(cè)試緩存延遲時(shí)所得到的結(jié)果。

 

一級(jí)緩存

二級(jí)緩存

延遲

周期

納秒

延遲

周期

納秒數(shù)

P4 3.2E

4

1.25

26

8.11

P4 3.2

2

0.62

19

5.92

    表中可見(jiàn),擴(kuò)容后,Prescott的一級(jí)緩存、二級(jí)緩存延遲分別增加到Northwood的2倍和1.4倍左右,擴(kuò)容的副作用較為明顯。

    ● 第二條措施——對(duì)P4原有的預(yù)取技術(shù)作出改進(jìn)。

    考慮到讀者可能對(duì)預(yù)取技術(shù)還比較陌生,因此我們首先對(duì)預(yù)取技術(shù)作簡(jiǎn)要的說(shuō)明。沒(méi)有使用預(yù)取機(jī)構(gòu)的處理器,只能在需要對(duì)數(shù)據(jù)進(jìn)行處理時(shí)查找緩存,如果緩存中沒(méi)有所需數(shù)據(jù),就必須停止工作,等待內(nèi)存提供此數(shù)據(jù)。而使用預(yù)取機(jī)構(gòu)后,則可以在數(shù)據(jù)需要處理之前就完成查詢緩存,向內(nèi)存中取數(shù)據(jù),并將數(shù)據(jù)預(yù)取到緩存中工作,隱藏了內(nèi)存的延遲,如下圖:

 預(yù)取原理圖(點(diǎn)擊放大)

    P4中具備軟件預(yù)取和硬件預(yù)取兩種預(yù)取方式。所謂軟件預(yù)取,就是在程序的代碼中由編程人員人為地添加預(yù)取指令。而硬件預(yù)取則由處理器全權(quán)管理預(yù)取工作,不需要編程人員手工插入預(yù)取指令。Prescott中對(duì)兩種預(yù)取都做出了一些改進(jìn)。

    軟件預(yù)取方面,對(duì)過(guò)去的P4來(lái)說(shuō)預(yù)取的對(duì)象只能是普通數(shù)據(jù)。這意味著軟件預(yù)取指令只能為二級(jí)緩存提供預(yù)取服務(wù)。而在Prescott中則擴(kuò)大了軟件預(yù)取的對(duì)象,不僅可以為二級(jí)緩存提供預(yù)取服務(wù),而且還能夠?yàn)榱硪环N重要的緩存——二級(jí)緩存D-TLB提供預(yù)取服務(wù)(有關(guān)TLB的說(shuō)明請(qǐng)點(diǎn)擊這里了解)。

    此外,在舊的P4中,軟件預(yù)取指令必須由速度慢的MicrcodeROM負(fù)責(zé)解碼。而現(xiàn)在則可由速度較快的硬件解碼器解碼,存放在發(fā)布速度快得多的Trace Cache中(MicrocodeROM和硬件解碼器的區(qū)別請(qǐng)點(diǎn)擊這里了解)。也算提高預(yù)取性能的一種輔助措施吧。

    硬件預(yù)取方面,Prescott的硬件預(yù)取機(jī)構(gòu)在預(yù)取時(shí)機(jī)、預(yù)取對(duì)象的選擇上也變得更加智能化,不過(guò)Intel對(duì)于硬件預(yù)取方面的改變并沒(méi)有提供更多的細(xì)節(jié)說(shuō)明。

    ● 最后由于Prescott中超線程技術(shù)的存在,對(duì)彌補(bǔ)內(nèi)存延遲的技術(shù)提出了更高的要求,為此,Intel進(jìn)一步增加了部分內(nèi)部緩沖器的容量,以滿足開(kāi)啟超線程時(shí)的需要。<

     前面我們主要涉及的,只是處理器外圍的緩存部分,下面,我們把目光投向Prescott的核心內(nèi)部,首先看看前端部分的一些變化:

 Prescott前端結(jié)構(gòu)(點(diǎn)擊放大)

    如上圖,P4的前端部分主要由指令取、指令解碼、追蹤緩存、MicrocodeROM以及分支預(yù)測(cè)機(jī)構(gòu)所組成。在這一部分中,Prescott主要在以下三個(gè)方面采取了改進(jìn)措施。

    ◎ 在解碼部分,Prescott將把更多的指令將交由硬件解碼器進(jìn)行解碼后由指令發(fā)布速度為3條/周期的追蹤緩存來(lái)發(fā)布,而不是交由發(fā)布速度僅1條/周期的MicrocodeROM來(lái)解碼后發(fā)布,比如我們?cè)谏厦嫣岬降能浖A(yù)取指令,就是一個(gè)很好的例子;這一點(diǎn),同Athlon64的情況比較類似,而有關(guān)MicrodeROM與硬件解碼器的區(qū)別,請(qǐng)點(diǎn)擊此處察看

    ◎ 第二方面,Prescott的解碼部分能夠識(shí)別出更多指令之間不必要的數(shù)據(jù)依賴(Data Dependence),以便提高后面的亂序執(zhí)行效率;

    ◎ 最后,也是最重要的一個(gè)方面,就是對(duì)分支預(yù)測(cè)機(jī)構(gòu)的改進(jìn)了,我們將主要針對(duì)此方面的改進(jìn)作一些簡(jiǎn)要說(shuō)明。

    首先,是我們?cè)谇懊嫔形瓷婕暗腡race Cache BTB部分。必須明確的一點(diǎn)是,Trace Cache BTB部分的變動(dòng),與Prescott的動(dòng)態(tài)分支預(yù)測(cè)機(jī)構(gòu)關(guān)系十分緊密,而動(dòng)態(tài)分支預(yù)測(cè)機(jī)構(gòu)的性能,則對(duì)于Prescott這樣的超長(zhǎng)流水線處理器,具備相當(dāng)重要的意義。

    我們知道,簡(jiǎn)單處理器取指令時(shí),只能按照編譯后的指令靜態(tài)順序進(jìn)行順次讀?。坏捎诜种е噶畹奶D(zhuǎn)特性,打亂了這種依次執(zhí)行的順序;如果此時(shí)我們?nèi)匀话凑罩噶罹幾g時(shí)的靜態(tài)順序順次讀取,或是在具備分支預(yù)測(cè)的處理器上出現(xiàn)分支預(yù)測(cè)失敗的現(xiàn)象,錯(cuò)誤地讀取了其它的指令進(jìn)行處理,就必然造成流水線部分區(qū)域的停工或是作了無(wú)用功。如下圖:

 長(zhǎng)流水線分支預(yù)測(cè)失敗示意圖(點(diǎn)擊放大)

    對(duì)于Prescott這樣的31級(jí)超長(zhǎng)流水線來(lái)說(shuō),這樣的問(wèn)題給處理器帶來(lái)的危害顯然比稍短的流水線更大。為了解決流水線在執(zhí)行條件分支指令時(shí)的上述問(wèn)題,就必須改進(jìn)Prescott處理器中的分支預(yù)測(cè)機(jī)構(gòu),這方面Intel主要有以下三方面的措施:

    ◎ 動(dòng)態(tài)分支預(yù)測(cè)方面,首先就是我們前面提到的,將追蹤緩存(Trace cache)所用的分支目標(biāo)緩沖條目數(shù)由以前的512條增加到了2千條;

    ◎ Intel還宣稱在原有的動(dòng)態(tài)分支預(yù)測(cè)機(jī)構(gòu)中加入非直接跳轉(zhuǎn)分支預(yù)測(cè)器(Indrector Branch Predictor),改進(jìn)了動(dòng)態(tài)預(yù)測(cè)非直接跳轉(zhuǎn)分支的能力。

    ◎ 第三條措施,就是改進(jìn)靜態(tài)分支預(yù)測(cè)的策略。  <

    要理解前頁(yè)所述的改進(jìn),我們就必須首先了解分支預(yù)測(cè)的一些基本原理。   

    同大多數(shù)處理器一樣,Prescott處理器的分支預(yù)測(cè)機(jī)構(gòu)可以分為動(dòng)態(tài)分支預(yù)測(cè)機(jī)構(gòu)以及靜態(tài)分支預(yù)測(cè)機(jī)構(gòu)兩大類,而其中動(dòng)態(tài)分支預(yù)測(cè)機(jī)構(gòu)由分支目標(biāo)緩沖(Branch Target Buffer ,以下簡(jiǎn)稱BTB)以及預(yù)測(cè)跳轉(zhuǎn)條件是否滿足的動(dòng)態(tài)預(yù)測(cè)機(jī)構(gòu)組成:


 分支預(yù)測(cè)原理圖(點(diǎn)擊放大)

    圖中可見(jiàn),BTB與我們熟悉的一級(jí)、二級(jí)緩存十分類似,只不過(guò)緩存的對(duì)象不同而已,前者緩存了分支指令及其挑轉(zhuǎn)目標(biāo)的地址,而后兩者則緩存具體的數(shù)據(jù)或指令。在每一個(gè)BTB的條目中,集中存儲(chǔ)了分支指令地址、跳轉(zhuǎn)地址以及分支指令的跳轉(zhuǎn)歷史紀(jì)錄。需要注意的是,由于P4對(duì)于其分支預(yù)測(cè)機(jī)構(gòu)的細(xì)節(jié)一直不愿意做過(guò)多的透露,因此其中實(shí)際的分支預(yù)測(cè)機(jī)構(gòu)組成狀況,與上圖所表示的結(jié)構(gòu)必然在細(xì)節(jié)上存在許多不同之處,但從原理上說(shuō),二者是基本相同的。

    大致了解了分支預(yù)測(cè)的原理之后,再回過(guò)頭來(lái)看Prescott中的分支預(yù)測(cè)改進(jìn)狀況,就較好理解了。

    ◎ 動(dòng)態(tài)分支預(yù)測(cè)方面,與其它處理器不太相同,P4處理器在指令預(yù)取單元和Tace Cache單元上,各放置了一套BTB機(jī)構(gòu),但兩套BTB機(jī)構(gòu)的作用和工作原理是類似的。增加BTB條目數(shù),能夠紀(jì)錄的分支指令數(shù)就越多,當(dāng)遇上分支指令較密集,分支指令跳轉(zhuǎn)情況變化較復(fù)雜的程序時(shí),將體現(xiàn)出一定的優(yōu)勢(shì)。

    ◎ 此外,由于分支預(yù)測(cè)指令中的跳轉(zhuǎn)地址有可能使用變量表示,而不是如我們上面舉例的那樣總是5、150這樣的常數(shù);這種情況我們稱為非直接跳轉(zhuǎn)分支(Indirect Branch)。如果此時(shí)仍然使用圖中的機(jī)構(gòu),顯然將造成BTB的頻繁預(yù)測(cè)失?。▋?chǔ)存在BTB中的分支跳轉(zhuǎn)地址可能是不斷變化的)。Intel宣稱在Prescott的動(dòng)態(tài)分支預(yù)測(cè)機(jī)構(gòu)中加入由Pentiumn M(Banis)中引用的非直接跳轉(zhuǎn)分支預(yù)測(cè)功能。這樣,就提高了執(zhí)行非直接跳轉(zhuǎn)分支時(shí)的預(yù)測(cè)成功率。

    ◎ 作為動(dòng)態(tài)分支預(yù)測(cè)的一種侯補(bǔ)方案,靜態(tài)分支預(yù)測(cè)的性能對(duì)于處理器來(lái)說(shuō)也具備一定的重要性。靜態(tài)分支預(yù)測(cè)方面,在過(guò)去的P4里,一直奉行以下的原則:

 如果分支所跳轉(zhuǎn)的地址為逆向跳轉(zhuǎn),則靜態(tài)預(yù)測(cè)為分支跳轉(zhuǎn)成立,執(zhí)行跳轉(zhuǎn);而如果分支所跳轉(zhuǎn)的地址為正向跳轉(zhuǎn),則靜態(tài)預(yù)測(cè)為分支跳轉(zhuǎn)不成立,按照編譯順序讀取下一條指令,下圖表示了這種靜態(tài)策略:

  

 Northwood的靜態(tài)分支預(yù)測(cè)(點(diǎn)擊放大)

    的確,在分支循環(huán)次數(shù)較多的程序中,這樣的靜態(tài)預(yù)測(cè)方案所得到的預(yù)測(cè)命中率較高。但是如果遇到的不是循環(huán)用分支語(yǔ)句,如果還這樣預(yù)測(cè)就不行了。所幸大多數(shù)情況下,分支循環(huán)程序所包含的指令數(shù)目都比較?。ㄒ馕吨h(huán)跳轉(zhuǎn)的地址偏移量不會(huì)很大),因此在Prescott中,Intel在原有的靜態(tài)分支策略中加入了距離判斷算法,僅在所跳轉(zhuǎn)的地址為逆向跳轉(zhuǎn),且跳轉(zhuǎn)的地址距離分支指令本身的地址偏移量較小時(shí),才執(zhí)行跳轉(zhuǎn)。下圖表示Prescott與舊P4在這方面的區(qū)別:

 更智能化的Prescott靜態(tài)分支預(yù)測(cè)

    顯然,這樣的靜態(tài)分支預(yù)測(cè)辦法顯得比以前所使用的方法更加“智能化“一些。<

    接下來(lái),我們進(jìn)入到核心的中部,這一部分主要完成為指令的執(zhí)行調(diào)配所需的資源、動(dòng)態(tài)地編排指令的執(zhí)行順序等工作。此部分與后面我們將要提及的運(yùn)算執(zhí)行單元部分一起,組成了P4的亂序執(zhí)行核心。

 Prescott處理器亂序執(zhí)行核心第一部分(點(diǎn)擊放大)

    在這一部分中,Prescott相比過(guò)去的P4,做出了以下三個(gè)方面的改進(jìn):

 ◎ 增加了用于浮點(diǎn)、多媒體運(yùn)算指令的排序(Scheduler)窗口。排序窗口的增大,有利于發(fā)現(xiàn)更多可以并行處理的浮點(diǎn)和多媒體指令,以提高亂序執(zhí)行浮點(diǎn)和多媒體指令的效率;

 ◎ 改良了用于載入(Load)和儲(chǔ)存(Store)指令排序的機(jī)構(gòu),減小了兩種指令的相互等待時(shí)間;

 ◎ 增加與各個(gè)指令排序器聯(lián)用的指令列表緩沖(Memory μO(píng)P Queue以及Integer/Floating PointμO(píng)P Queue)的容量,以便緩沖更多由上級(jí)的分配/寄存器換名單元(Allocator/Register Renamer)送來(lái)的指令,減小上級(jí)單元因等待而產(chǎn)生的空閑狀況。

   最后是處理器的運(yùn)算執(zhí)行單元部分,主要由負(fù)責(zé)整數(shù)運(yùn)算的ALU、負(fù)責(zé)浮點(diǎn)和多媒體運(yùn)算的FPU以及負(fù)責(zé)地址計(jì)算、數(shù)據(jù)載入以及計(jì)算結(jié)果儲(chǔ)存的AGU部分組成:

 Prescott處理器亂序執(zhí)行核心第二部分(點(diǎn)擊放大)

    在這一部分中,Prescott相比過(guò)去的P4,做出了以下兩個(gè)方面的改進(jìn):

 ◎ 在兩個(gè)快速ALU單元(以兩倍于處理器運(yùn)行頻率的速度工作)之一中加入處理移位/旋轉(zhuǎn)操作的機(jī)構(gòu);而在舊P4中,這部分功能必則由慢速的ALU單元來(lái)處理。加入新的移位/旋轉(zhuǎn)操作機(jī)構(gòu)之后,處理此類運(yùn)算的速度將得到提高;

 ◎ 過(guò)去的P4,必須依賴浮點(diǎn)單元進(jìn)行整數(shù)乘法運(yùn)算,這不僅給浮點(diǎn)單元增加了負(fù)擔(dān),而且還需要把待處理的數(shù)據(jù)在浮點(diǎn)、整數(shù)單元之間相互傳遞,浪費(fèi)處理器內(nèi)部的數(shù)據(jù)傳輸帶寬。Prescott則添加了單獨(dú)的整數(shù)乘法單元,消除了這些問(wèn)題。    <

    如果我們把處理器的內(nèi)部架構(gòu)比喻為骨架,那么在處理器上使用的指令集,則可以說(shuō)是處理器的靈魂。任何一款處理器,都必須依靠指令集的幫助,才能夠發(fā)揮出足夠的威力。這一點(diǎn),只要我們看一看SSE2、MMX或是3DNow!這樣的擴(kuò)展指令集對(duì)發(fā)揮處理器架構(gòu)優(yōu)勢(shì)所起的作用就會(huì)明白。Prescott也不例外。這一次Intel為Prescott專門(mén)設(shè)計(jì)了如下表所示的13條新指令:

指令種類

指令助記符

浮點(diǎn)轉(zhuǎn)整數(shù)指令

FISTTP

復(fù)雜算法指令

ADDSUBPD, ADDSUBPS, MOVDDUP

MOVSHDUP, MOVSLDUP

視頻編碼指令

LDDQU

采用AOS格式的SIMD FP

(用于圖形處理)

HADDPD, HSUBPD, HADDPS, HSUBPS

線程同步指令

MONITOR, MWAIT

    通過(guò)在程序中使用這些指令,程序員能夠更好地發(fā)揮Prescott處理器固有的架構(gòu)優(yōu)勢(shì),進(jìn)一步提高處理器在多媒體處理、超線程應(yīng)用等領(lǐng)域的性能表現(xiàn)。

    此外,最令人關(guān)注的,恐怕就是Prescott處理器是否如AMD的K8系列處理器那樣包含64位指令集擴(kuò)展了。在不久前召開(kāi)的Intel春季技術(shù)峰會(huì)上,身為Intel首席執(zhí)行官之一的Craig Barrett終于親口承認(rèn)了這一點(diǎn)。

    按照這位官員的說(shuō)法,今年的第二季度,Intel就將首先在服務(wù)器市場(chǎng)推出核心代號(hào)為Nocona的處理器,此款處理器與Prescott內(nèi)部構(gòu)造基本相同,只不過(guò)添加了更大的緩存,并可以支持多處理器配置。并在此款處理器上市后不久再推出單處理器配置的服務(wù)器、工作站型Prescott處理器。而微軟方面也表示將在不久的將來(lái)推出可兼容K8與Prescott處理器的64位操作系統(tǒng)版本。

 此外,Intel還提供了用于Prescott核心64位指令集編程的指導(dǎo)書(shū),從這一份指導(dǎo)書(shū)中,我們可以看到,Intel在Prescott處理器的64位擴(kuò)展上,采取了和AMD的K8處理器十分類似的策略,同樣提供了寄存器擴(kuò)展和多種操作模式的支持。其中共包含兩種操作模式,其一是傳統(tǒng)的IA32模式,其二是可兼容32-64位指令的IA32e模式,各模式的具體狀況見(jiàn)下表:

工作模式

統(tǒng)

專用程序

認(rèn)數(shù)

認(rèn)

數(shù)位數(shù)

擴(kuò)展

位數(shù)

IA32 [傳統(tǒng)模式]

保持舊有32位處理器的參數(shù)不變

IA32e

64位模式

64

統(tǒng)

64

32

64

兼容模式

×

32

32

×

32

16

16

16,8

    在64位模式下,Intel也對(duì)可用的寄存器進(jìn)行了擴(kuò)展,如下表所示:

 

64位模式

兼容以及傳統(tǒng)模式

名稱

數(shù)

數(shù)

名稱

數(shù)

數(shù)

通用

寄存器

RAX,RBX,RCX,RDX,RBP,RSI,

RDI,RSP,

R8-15

16

64

EAX,EBX,ECX,EDX,EBP,ESI,

EDI,ESP

8

32

指令指針

寄存器

RIP

1

64

EIP

1

32

標(biāo)志

寄存器

EFLAGS

1

32

EFLAGS

1

32

浮點(diǎn)

寄存器

ST0-7

8

80

ST0-7

8

80

MMX

寄存器

MM0-7

8

64

MM0-7

8

64

SIMD

寄存器

XMM0-15

16

128

XMM0-7

8

128

堆棧寬度

――――

64

――――

16/32

    所有這些都意味著目前上市的桌面型Prescott處理器,已經(jīng)具備了可執(zhí)行64位指令的功能單元。只不過(guò)由于Intel把64位應(yīng)用局限在服務(wù)器、工作站市場(chǎng),因此沒(méi)有在眼下推出的桌面型Prescott處理器時(shí)中,將這些功能打開(kāi)或?qū)Υ穗[含功能進(jìn)行大肆宣傳。<

    一款處理器能否在市場(chǎng)上站住腳,僅靠?jī)?nèi)部架構(gòu)以及指令集的設(shè)計(jì)是遠(yuǎn)遠(yuǎn)不夠的。設(shè)計(jì)得再好的產(chǎn)品也必須最終在生產(chǎn)上得以實(shí)現(xiàn);反過(guò)來(lái)說(shuō),優(yōu)良的生產(chǎn)工藝和生產(chǎn)成本控制技術(shù)又可以保證處理器架構(gòu)設(shè)計(jì)師們放心地采用更加復(fù)雜的處理器設(shè)計(jì)。

    作為首顆采用90nm制程以及可減小電子流動(dòng)阻力的應(yīng)變硅技術(shù)制作的桌面型處理器。借助于Intel先進(jìn)的處理器生產(chǎn)技術(shù)。性能方面Prescott核心集成的晶體管數(shù)和可穩(wěn)定運(yùn)行的頻率范圍得到了顯著的提升,成本方面處理器的核心面積也得到了較大幅度的縮減,這一點(diǎn),我們從如下的一組對(duì)比圖表中就可以清楚地看出來(lái):

生產(chǎn)商

核心代號(hào)

制程

晶體管

SOI

應(yīng)變硅

Intel

Willamette

180nm

4200萬(wàn)

170

×

×

Northwood

130nm

5500萬(wàn)

131

×

×

P4至尊版

130nm

1

7800萬(wàn)

237

×

×

Prescott

90nm

1

2500萬(wàn)

112

×

AMD

K8

130nm

1590萬(wàn)

193

×

    然而,盡管使用了新工藝新材料制作。初期推出的Prescott還是給我們帶來(lái)了少許的遺憾,它夸張的功耗參數(shù),使它成為桌面處理器的發(fā)熱之王。

生產(chǎn)商

核心代號(hào)

制程步進(jìn)號(hào)

[Stepping]

TDP

Intel

Northwood P4 3.2C

D1

82W

Northwood P4 3.2

至尊版

D1

92.1W

Prescott P4 3.2E

C0

103W

AMD

Athlon64 3400+

C0

89W

Athlon64 FX53

C0

89W

    TDP值越高,意味著處理器所需要配備的散熱器規(guī)格也越高。我們希望隨著工藝的改進(jìn),在下一個(gè)制程步進(jìn)號(hào)的Prescott中,發(fā)熱量過(guò)大的問(wèn)題能夠得到某些程度的改善。<

    說(shuō)了那么多原理還是讓我們輕松一下,來(lái)看看Prescott處理器和其老前輩Northwood以及死敵Athlon64 3200+的正面、側(cè)面合影圖:

 Prescott、Northwood以及Athlon64 3200+合影

    從正面和側(cè)面來(lái)看,Prescott相比過(guò)去的Northwood,在整體尺寸以及外形上并沒(méi)有什么明顯的區(qū)別。而由于內(nèi)置了內(nèi)存控制器,Athlon64 3200+則在體形上顯得“粗壯“一些。   

 Prescott、Northwood以及死敵Athlon64 3200+的合影(點(diǎn)擊放大)

    而從背面圖的對(duì)比來(lái)看,Prescott底部用于核心電壓濾噪的電容數(shù)目相比Northwood增加不少,排列方式也發(fā)生了較大的改變。根據(jù)我們的猜測(cè),這可能是由于Prescott核心工作電壓相比Northwood降低了不少,因此對(duì)電壓的穩(wěn)定度也有了較高的要求使然。相比之下,Athlonj64 3200+處理器則由于背部針腳數(shù)較多,因此把濾噪電容都放置在了處理器的正面。

    看過(guò)了處理器的外觀,讓我們進(jìn)一步使用Cpu-Z軟件,來(lái)觀察一下處理器內(nèi)部參數(shù)的變化:

 Prescott與Northwood在Cpu-Z 1.21中的對(duì)比(點(diǎn)擊放大)

    從Cpu-Z 1.21中,明顯可以看出,正如我們?cè)谇懊娴姆治鲋兴f(shuō)的,Prescott的一級(jí)、二級(jí)緩存容量都相比Northwood得到了倍增。除此之外,我們也可以看到,Prescott處理器的CpuID號(hào)為0F33,而D1制程的Northwood則為0F27。遺憾的是Cpu-Z最新的1.21版本仍然不能識(shí)別出Prescott的制程步進(jìn)號(hào)。而根據(jù)Intel相關(guān)資料顯示,我們收到的此款Prescott制程步進(jìn)號(hào)應(yīng)為C0,算是作為對(duì)Cpu-Z信息的一條補(bǔ)充吧。<

    盡管通過(guò)前面的分析,我們對(duì)于Prescott處理器的基本情況已經(jīng)有相當(dāng)?shù)牧私?,然而該處理器的?shí)際性能,最終仍需通過(guò)實(shí)際的測(cè)試來(lái)檢測(cè),否則不免落入紙上談兵的俗套之中。以下是本次測(cè)試時(shí)所使用的測(cè)試配置:

硬件配置、設(shè)置部分

處 理 器

P43.2E

P4 3.2GHz

Athlon64 3200+

主    版

ASUS P4P800S [865PE]

Giga K8VT800 [K8T800]

BIOS版本

1015

F5

內(nèi)    存

OCZ EL DDR PC-3200 Dual Channel Platinum 256MB×2

BIOS

關(guān)

設(shè)

內(nèi)  存

處理器

內(nèi)存時(shí)序統(tǒng)一調(diào)節(jié)為5-2-2-2

內(nèi)存電壓2.7V

AGP/PCI頻率統(tǒng)一設(shè)置為66.66/33.33MHz

Intel平臺(tái)統(tǒng)一使用雙通道,并開(kāi)啟P4P800上的PAT功能

Athlon64平臺(tái)上HT上下行頻率設(shè)置為800MHz,位寬為16/16 bit

AGP相關(guān)

AGP Aperturesize256MB,打開(kāi)快寫(xiě),打開(kāi)AGP8×

其  余

Spread Spectrum

關(guān)閉

ICH Delay Transport

關(guān)閉

附件

SysMark 2004以及COD外,關(guān)閉內(nèi)置聲卡和網(wǎng)卡

顯    卡

NVIDIA GeForce FX5900 Ultra [450/850MHz]

QuadroFX1100 [425/650MHz]

硬    盤(pán)

西捷酷魚(yú) 60GB

軟件設(shè)置部分

操作系統(tǒng)

英文版WinXP SP1 [安裝DX9.0b]

主板驅(qū)動(dòng)

INF 5.10.1008 / VIA 4in1 ver4.51

顯卡驅(qū)動(dòng)

NVIDIA 53.03WHQL [使用NVCool v2.1關(guān)閉垂直同步]

桌面設(shè)置

1024×768×75Hz×32bit / 1280×1024×75Hz×32bit

測(cè)試項(xiàng)目詳表

單項(xiàng)性能

Sisoftsandra 2004

ScienceMark 2.0

Linpack

綜合性能

SysMark 2004

SysMark 2002

Business Winstone 2004+CC Winstone 2004

Business Winstone 2002+CC Winstone 2002

3DMark2001 SE

3DMark03 Patch46

Aquamark3

項(xiàng)

Q3 v1.17

COD v1.0

Comanche4 Demo

UT2003

UT2004 Demo

Splinter Cell V1.2

HALO V1.03

Max·Payne 2 v1.0 [Fraps]

圖形工作站

Specviewpref 7.1.1

3Dsmax 5.0

Cinebench 2003

 
    置此外,為了保持兩平臺(tái)參數(shù)盡量一致,在對(duì)K8VT800進(jìn)行內(nèi)存時(shí)序設(shè)置時(shí),我們?cè)僖淮问褂昧薟pcredit。    首先是參數(shù)測(cè)試部分,這一部分我們將從大家已經(jīng)熟悉的sissoftsandra2004測(cè)試開(kāi)始。

    該部分的測(cè)試主要由考核CPU數(shù)學(xué)計(jì)算性能的Drystone、Whiestone,考核CPU多媒體數(shù)據(jù)處理性能、內(nèi)存帶寬性能以及緩存——內(nèi)存系統(tǒng)傳輸帶寬四大部分組成。我們分別在打開(kāi)超線程和關(guān)閉超線程的情況下作了測(cè)試,以下為前三項(xiàng)測(cè)試的詳細(xì)結(jié)果:

    由前三項(xiàng)測(cè)試結(jié)果可見(jiàn),受到流水線深度的制約,相比Northwood來(lái)說(shuō),Prescott在SisoftSandra中的表現(xiàn)只能說(shuō)是差強(qiáng)人意,多數(shù)情況下都不如Northwood的表現(xiàn)。它僅在內(nèi)存帶寬測(cè)試中與Northwood持平。

    而Athlon64 3200+則由于不支持超線程和雙通道模式,因此在前面兩項(xiàng)超線程處理器占了便宜的測(cè)試中落后。同時(shí)在內(nèi)存持續(xù)帶寬的測(cè)試中AMD和Intel錯(cuò)開(kāi)了較大的差距。但是由于Athlon64內(nèi)置的內(nèi)存控制器極大地減小了內(nèi)存?zhèn)鬏斞舆t,對(duì)于單通道內(nèi)存配置的系統(tǒng)來(lái)說(shuō),這樣的成績(jī)可以說(shuō)是相當(dāng)不錯(cuò)的了。

    至于緩存——內(nèi)存系統(tǒng)傳輸帶寬,為了對(duì)比方便,我們根據(jù)SisoftSandra 2004的測(cè)試結(jié)果,繪制了下面的圖表。對(duì)于P4系列處理器,該項(xiàng)測(cè)試僅在超線程狀態(tài)下進(jìn)行。

 Sissoftsandra2004緩存——內(nèi)存帶寬測(cè)試(點(diǎn)擊放大)

    與上面的內(nèi)存持續(xù)帶寬測(cè)試不同,此項(xiàng)測(cè)試可考核一級(jí)緩存、二級(jí)緩存以及內(nèi)存的數(shù)據(jù)傳輸帶寬。在測(cè)試前部,數(shù)據(jù)塊尺寸較小,可以被一級(jí)緩存所容納,此時(shí)的數(shù)據(jù)傳輸主要依靠一級(jí)緩存進(jìn)行;隨著數(shù)據(jù)塊尺寸的進(jìn)一步增大,超出一級(jí)緩存的容量后,就必須依靠二級(jí)緩存進(jìn)行存儲(chǔ);到測(cè)試的尾部,數(shù)據(jù)塊的尺寸增加到1M以上,就只能通過(guò)內(nèi)存來(lái)存儲(chǔ)如此大尺寸的數(shù)據(jù)塊了。通過(guò)這種逐級(jí)加大數(shù)據(jù)塊尺寸的方法,就可以測(cè)試出處理器里一級(jí)緩存、二級(jí)緩存以及內(nèi)存的傳輸帶寬。

    在此項(xiàng)測(cè)試中,三款處理器的存儲(chǔ)子系統(tǒng)帶寬,呈現(xiàn)出形態(tài)各異的三條曲線。

 ◎ 在考核一級(jí)緩存數(shù)據(jù)傳輸帶寬的測(cè)試前部,Prescott處理器與Northwod雖然一級(jí)緩存工作頻率、傳輸位寬相同,但是由于前者的一級(jí)數(shù)據(jù)緩存為后者的2倍,緩存延遲有所增加,因此持續(xù)帶寬也隨之下降,但容量上的改變也帶來(lái)了在8-16KB區(qū)域的領(lǐng)先。而AMD處理器盡管一級(jí)緩存容量為64KB,遠(yuǎn)遠(yuǎn)大于Prescott的16KB和Northwood的8KB,但由于工作頻率較低,因此雖然在64KB之前的數(shù)據(jù)傳輸帶寬變化比較平緩,但在數(shù)值上仍然遠(yuǎn)低于P4系列。

    ◎ 在考核二級(jí)緩存數(shù)據(jù)傳輸帶寬的測(cè)試中部,由于類似的原因,Prescott處理器與Northwod雖然二級(jí)緩存工作頻率、傳輸位寬相同,但是由于前者的二級(jí)數(shù)據(jù)緩存為后者的2倍,緩存延遲有所增加,因此持續(xù)帶寬也隨之下降,但容量上的改變也帶來(lái)了在512KB—1M區(qū)域的領(lǐng)先。在此區(qū)域中,Athlon64 3200+除了憑借比Northwood大一倍的二級(jí)緩存容量,而在大數(shù)據(jù)塊區(qū)領(lǐng)先Northwood外,其余部分由于受頻率、位寬限制,表現(xiàn)并不令人滿意。

    ◎ 在測(cè)試的尾部,3套系統(tǒng)都必須動(dòng)用內(nèi)存來(lái)存儲(chǔ)數(shù)據(jù)了,由于平臺(tái)相同,因此兩塊P4處理器的尾部曲線重合在一起;而Athlon64 3200+則由于僅為內(nèi)存單通道,因此在這部分中繼續(xù)落后。

    ScienceMark 2.0是一款多功能的軟件,可以進(jìn)行科學(xué)計(jì)算測(cè)試,也可用于存儲(chǔ)子系統(tǒng)的帶寬、延遲測(cè)試。本次測(cè)試沒(méi)用啟用此軟件的全部功能,而主要使用存儲(chǔ)子系統(tǒng)測(cè)試模塊進(jìn)行3款處理器存儲(chǔ)子系統(tǒng)的延遲性能測(cè)試。測(cè)試結(jié)果如下:

 

一級(jí)緩存

二級(jí)緩存

內(nèi)存

遲周

納秒

遲周

納秒

遲周

納秒

P4 3.2E

4

1.25

26

8.11

210

65.47

P4 3.2C

2

0.62

19

5.92

204

63.6

A64 3200+

3

1.49

16

7.96

85

42.29

    測(cè)試結(jié)果表明,Prescott處理器緩存系統(tǒng)的傳輸延遲,相比Northwood有所提高,其一級(jí)緩存、二級(jí)緩存?zhèn)鬏斞舆t均有較大的增加。而Athlon64 3200+則由于工作頻率低,因此其一級(jí)、二級(jí)緩存的延遲為三款處理器之最;但由于使用了內(nèi)置的內(nèi)存控制器,因此內(nèi)存?zhèn)鬏斞舆t非常之小,相比P4明顯占優(yōu)。這樣,在內(nèi)存零星數(shù)據(jù)的存取上,Athlon64 3200+將體現(xiàn)出一定的優(yōu)勢(shì)。

    最后,我們還使用了Linpack程序進(jìn)行三款處理器的測(cè)試。該程序與Sissoftsandra2004的緩存——內(nèi)存子系統(tǒng)傳輸帶寬測(cè)試性質(zhì)十分類似。兩者的不同之處在于Linpack程序執(zhí)行的是不斷增大的雙精度浮點(diǎn)數(shù)矩陣乘法計(jì)算。因此這個(gè)程序除了能夠反映緩存——內(nèi)存子系統(tǒng)的傳輸帶寬之外,還兼具考核處理器浮點(diǎn)性能的功用。測(cè)試的詳細(xì)結(jié)果如下圖:

 Prescott在Linpack測(cè)試中的表現(xiàn)(點(diǎn)擊放大)

    ◎ 在測(cè)試的前部,矩陣尺寸較小,只需要存儲(chǔ)在一級(jí)緩存中既可,此時(shí)處理器的浮點(diǎn)運(yùn)算能力(每秒百萬(wàn)次浮點(diǎn)運(yùn)算數(shù)目——MFLOPS)不會(huì)受到二級(jí)緩存、內(nèi)存延遲的干擾,能夠得到充分的體現(xiàn)。從這部分曲線,我們可以看到Athlon64 3200+的浮點(diǎn)性能表現(xiàn)不錯(cuò)。反觀Prescott,雖然采取了一些措施,但由于流水線級(jí)數(shù)的增加,處理此類浮點(diǎn)運(yùn)算的性能有所下降,因此在Linpack中表現(xiàn)仍然落后于Northwood不少。

    ◎ 在測(cè)試的中后部,矩陣尺寸增加了,必須使用二級(jí)緩存乃至內(nèi)存來(lái)進(jìn)行矩陣數(shù)據(jù)的傳輸,本可繼續(xù)保持上升勢(shì)態(tài)的Athlon64 3200+曲線,在超過(guò)64KB(等于Athlon64 3200+的一級(jí)數(shù)據(jù)緩存容量)部分的曲線區(qū)域,由于受到二級(jí)緩存性能的制約,而未能如P4處理器那樣繼續(xù)上升,而是急劇下降;反觀P4處理器,顯然在二級(jí)緩存性能上優(yōu)于Athlon64 3200+,在很長(zhǎng)的范圍內(nèi),曲線都保持了上升勢(shì)態(tài)。尤其是Prescott,雖然在峰值上劣于Northwood,但由于增加了二級(jí)緩存的容量,因此在512KB之后的測(cè)試中優(yōu)勢(shì)明顯。<

    以下我們進(jìn)入綜合性能測(cè)試的環(huán)節(jié),此部分的測(cè)試主要使用SYSmark 2004這類考核辦公、多媒體制作綜合性能的軟件來(lái)進(jìn)行測(cè)試,能夠較為全面地反映參測(cè)平臺(tái)在除了游戲以外的大多數(shù)桌面應(yīng)用中的性能。理論上講,開(kāi)啟P4的超線程功能后,將有利于此類應(yīng)用的性能提升,此外Prescott相比Northwood在開(kāi)啟、關(guān)閉超線程情況下的性能差別也是大家十分關(guān)注的,因此我們分別作了開(kāi)啟和關(guān)閉超線程的測(cè)試。

    首先進(jìn)行的是SYSmark 2004的測(cè)試:

    該測(cè)試集成了17個(gè)較新的互聯(lián)網(wǎng)多媒體制作以及辦公軟件。除了對(duì)上一代軟件進(jìn)行更新?lián)Q代以外,互聯(lián)網(wǎng)多媒體制作軟件方面終于改用微軟的Internet Explorer 6而不再使用Netscape,此外,還增加3Ds max5.1進(jìn)行圖形工作站成品渲染的測(cè)試,并追加Aftereffect 5.5進(jìn)行影像制作的性能測(cè)試。

    由測(cè)試結(jié)果可見(jiàn),打開(kāi)超線程后的Prescott在Sysmark2004中表現(xiàn)不錯(cuò),全面超越Northwood;而在沒(méi)有開(kāi)啟超線程的情況下,表現(xiàn)則正好相反。另一方面,我們以可以看到,打開(kāi)超線程后,兩款P4處理器的得分也確實(shí)獲得了較為明顯的提升,而打開(kāi)超線程和未打開(kāi)超線程的性能提升幅度,自然也是Prescott大于Northwood了。看來(lái)Prescott的超線程性能確實(shí)有所提高。而Athlon64 3200+則在此項(xiàng)測(cè)試中成績(jī)不理想,只能與未開(kāi)啟超線程的Prescott大致相當(dāng)。

    接下來(lái),我們進(jìn)行Winstone2004的測(cè)試,該測(cè)試由Bussinesss Wintone2004和Content Creation Winston2004兩部分組成。前者重于考核處理器執(zhí)行商務(wù)應(yīng)用軟件的性能,后者重于考核處理器執(zhí)行多媒體制作、網(wǎng)絡(luò)發(fā)布軟件的性能。

    Bussinesss Wintone2004中集成了以下的軟件:首先是集成于微軟Office XP中,常用的文字處理、制表、郵件收發(fā)類軟件,如Access 2002、Excel 2002、Microsoft FrontPage 2002、Microsoft Outlook 2002、Microsoft PowerPoint 2002、Microsoft Project 2002、Microsoft Word 2002,其次是鼎鼎大名的殺毒軟件Norton AntiVirus Professional Edition 2003以及壓縮數(shù)據(jù)常用的WinZip 8.1。

    與Bussinesss Wintone2002有所不同的是,新的2004版本增加了多任務(wù)性能測(cè)試的模塊,該模塊有三個(gè)環(huán)節(jié)組成,分別標(biāo)以Multitasking1、Multitasking2、 Multitasking3,三個(gè)環(huán)節(jié)的測(cè)試中都同時(shí)運(yùn)行多個(gè)軟件,并且同時(shí)運(yùn)行的軟件數(shù)量逐級(jí)增加,在Multitasking3中達(dá)到最多。能夠更為全面地考核多任務(wù)運(yùn)行時(shí)超線程處理器的性能表現(xiàn),其測(cè)試結(jié)果如下:

    總分方面,我們得到與SYSmark 2004同樣的測(cè)試結(jié)果。而在多任務(wù)測(cè)試中,我們可以看到,在前面的多任務(wù)測(cè)試中,Prescott表現(xiàn)不佳,但隨著同時(shí)運(yùn)行任務(wù)數(shù)的增多,Prescott的性能終于得到完全的發(fā)揮,拔得頭籌。而Athlon64 3200+在前兩個(gè)多任務(wù)測(cè)試中的表現(xiàn)也不錯(cuò),只是在最后階段敗下陣來(lái)。

    與SYSmark 2004類似,Content Creation Winston2004也在升級(jí)原集成Photoshop 7.0.1,Premiere 6.50, Director MX 9.0、Dreamweaver MX 6.1、Windows Media Encoder 9的基礎(chǔ)上,增加NewTek公司的LightWave3D 7.5b進(jìn)行圖形工作站成品渲染的測(cè)試;此外,還增加WaveLab 4.0f進(jìn)行音頻處理性能的測(cè)試。測(cè)試結(jié)果如下:

    由測(cè)試結(jié)果來(lái)看,在Content Creation Winston2004上,兩款P4處理器的性能沒(méi)有明顯區(qū)別,而AMD的落后幅度則有所縮小;同時(shí)我們也可以看到Prescott開(kāi)啟超線程后的性能提升幅度也比Northwood稍高。<

    以下我們進(jìn)入音頻、視頻壓縮性能測(cè)試環(huán)節(jié),此部分主要使用Razorlame 1.15,Tmpeg,以及Xmpeg這三個(gè)軟件進(jìn)行測(cè)試,測(cè)試時(shí)轉(zhuǎn)換用源文件,以及目標(biāo)文件均使用第二塊硬盤(pán)的C:分區(qū)進(jìn)行存放,每次測(cè)試之前都對(duì)C:分區(qū)進(jìn)行格式化處理,測(cè)試之前安裝了Divx 5.1.1。

    首先是Razorlame 1.15的測(cè)試,測(cè)試將660MB的wav源文件使用此軟件壓縮為MP3文件,軟件具體設(shè)置請(qǐng)點(diǎn)擊此處察看

    在Razorlame的測(cè)試中,Prescott的表現(xiàn)只能以十分糟糕來(lái)形容,不論打開(kāi)或是關(guān)閉超線程,都以大比分落后Northwood,甚至在Razorlame這樣P4的強(qiáng)項(xiàng)應(yīng)用中只能與僅配置了單通道內(nèi)存的Athlon64 3200+持平。同時(shí)我們也可以看到打開(kāi)超線程對(duì)于Razrolame沒(méi)有太大的幫助,只提高了大約2%左右。

    接著我們進(jìn)行Xmpeg的測(cè)試,測(cè)試使用1GB的源文件,設(shè)定在5000幀處讀取編碼所用時(shí)間,其余詳細(xì)設(shè)置見(jiàn)此處的鏈接。

    Prescott的表現(xiàn)總算恢復(fù)到了正常水平,與Northwood表現(xiàn)基本持平,關(guān)閉超線程后,兩塊P4的性能表現(xiàn)則與Athlon64 3200+持平,同時(shí)我們也可以看到,打開(kāi)超線程后,兩塊P4的Xmpeg成績(jī)都提高了10%左右,提升幅度較大。

    最后,我們進(jìn)行Tmpeg的測(cè)試,測(cè)試使用1.2GB的AVI源文件進(jìn)行,以下是測(cè)試的詳細(xì)結(jié)果:

   在Tmpeg中,Prescott的表現(xiàn)十分不錯(cuò),領(lǐng)先Northwood的幅度達(dá)到了10%,開(kāi)啟超線程對(duì)于P4的幫助十分明顯。而Athlon64 3200+在這里則表現(xiàn)十分糟糕。<:游戲性能測(cè)試 [1]]

    游戲性能測(cè)試我們分為兩大部分進(jìn)行,分別是游戲綜合性能測(cè)試部分和實(shí)際游戲性能測(cè)試部分。

    游戲綜合性能測(cè)試部分主要使用3DMark2001 SE、3DMark 03以及Aquamark3這三個(gè)軟件進(jìn)行。首先是3DMark2001 SE v330和3DMark 03 Patch46登場(chǎng),分別測(cè)試了使用處理器和使用顯卡進(jìn)行轉(zhuǎn)換以及光照處理這兩種情況下的系統(tǒng)表現(xiàn),其余設(shè)置均使用軟件安裝后的默認(rèn)值,以下為這兩個(gè)軟件的測(cè)試結(jié)果:

    從這幾個(gè)簡(jiǎn)單的結(jié)果來(lái)看,新版本Intel處理器的表現(xiàn)相當(dāng)不錯(cuò)。不過(guò)3DMark的表現(xiàn)并不等同于在實(shí)際游戲中的效果。如果您購(gòu)買(mǎi)Prescott的初衷是為了加速游戲性能,請(qǐng)繼續(xù)看我們接下來(lái)的評(píng)測(cè)。<:游戲性能測(cè)試 [2]]

    由于Aquamark3的制作公司宣稱游戲支持超線程,因此在這個(gè)軟件的測(cè)試中,我們分別打開(kāi)和關(guān)閉超線程進(jìn)行了測(cè)試,此外,測(cè)試時(shí)還關(guān)閉了聲音選項(xiàng),其余均使用AM3的默認(rèn)設(shè)置進(jìn)行測(cè)試,測(cè)試結(jié)果如下:

    在這一環(huán)節(jié)的測(cè)試中,Prescott的性能沒(méi)有給我們帶來(lái)太多的驚喜。不論打開(kāi)或是關(guān)閉超線程,性能均與Northwood半斤八兩,差距均在1%左右。而Athlon64 3200+則在對(duì)處理器依賴較大的3DMark2001SE v330測(cè)試中體現(xiàn)出較為明顯的優(yōu)勢(shì),在其余的測(cè)試中則與P4得分十分接近。<:游戲性能測(cè)試 [3]]    看過(guò)了測(cè)試軟件的測(cè)試,隨后我們進(jìn)入實(shí)際游戲性能測(cè)試。首先進(jìn)行OpenGL游戲的測(cè)試,這里我們使用了Q3 V1.17以及使用改進(jìn)版Q3引擎的《使命的召喚》這兩個(gè)游戲進(jìn)行測(cè)試。


    Q3 V1.17的測(cè)試,測(cè)試僅使用demo001場(chǎng)景進(jìn)行,測(cè)試設(shè)置請(qǐng)點(diǎn)擊此處察看。以下為測(cè)試結(jié)果:

    接下來(lái)我們進(jìn)行《使命的召喚》的測(cè)試,測(cè)試設(shè)置請(qǐng)點(diǎn)擊此處察看。以下為測(cè)試結(jié)果:

    由這兩個(gè)游戲的測(cè)試結(jié)果可見(jiàn),在《使命的召喚》中,Prescott與Northwood性能十分接近;而在Q3的測(cè)試中,Prescott則以5%的劣勢(shì)落后。此外,大概是由于Q3引擎對(duì)于內(nèi)存帶寬較為敏感,因此Athlon64 3200+的性能受到單通道內(nèi)存的影響而落在了最后。

    下面是DX8級(jí)別游戲的測(cè)試環(huán)節(jié),此部分包含卡曼奇4、細(xì)胞分裂1.2北美版、虛幻競(jìng)技場(chǎng)2003以及最新推出的虛幻競(jìng)技場(chǎng)2004 Demo這四個(gè)游戲進(jìn)行測(cè)試。


    首先是卡曼奇4的測(cè)試,測(cè)試使用此游戲的Demo版進(jìn)行,測(cè)試設(shè)置請(qǐng)點(diǎn)擊此處察看。以下為測(cè)試結(jié)果:

    接下來(lái)我們進(jìn)行細(xì)胞分裂的測(cè)試,測(cè)試使用其1.2北美版進(jìn)行,測(cè)試的具體設(shè)置請(qǐng)點(diǎn)擊此處察看。以下為此項(xiàng)測(cè)試的具體結(jié)果:

    第三個(gè)出場(chǎng)的是大家十分熟悉的虛幻競(jìng)技場(chǎng)2003,測(cè)試使用官方發(fā)布的測(cè)試程序進(jìn)行,并在1024768的分辨率下進(jìn)行了測(cè)試,以下為測(cè)試的結(jié)果:

    最后,我們測(cè)試了最新推出的虛幻競(jìng)技場(chǎng)2004,測(cè)試使用其免費(fèi)提供的Demo版進(jìn)行,使用ons-torlan場(chǎng)景進(jìn)行,僅作了Botmach的測(cè)試,測(cè)試中打開(kāi)所有特效,使用了最高畫(huà)質(zhì)設(shè)置:

  <:游戲性能測(cè)試 [4]]    游戲測(cè)試的最后,輪到DX9級(jí)別游戲出場(chǎng),這部分主要包括HALO 1.03版和Max·Payne 2兩個(gè)游戲:


    首先是HALO的測(cè)試,測(cè)試之前安裝了最新的1.03版補(bǔ)丁,分別測(cè)試了1024×768分辨率下打開(kāi)ps2.0指令和使用固定流水線兩種情況下的成績(jī),測(cè)試其余設(shè)置請(qǐng)點(diǎn)擊此處察看

    Max Payne2的測(cè)試使用Fraps 2.0進(jìn)行,測(cè)試場(chǎng)景分別選用游戲第七章節(jié)、第八章節(jié)的開(kāi)場(chǎng)實(shí)時(shí)動(dòng)畫(huà),測(cè)試詳細(xì)設(shè)置請(qǐng)點(diǎn)擊此處察看。

    與前面的游戲綜合性能測(cè)試軟件以及OpenGL游戲測(cè)試所得到的結(jié)果不同,Athlon64 3200+在實(shí)際游戲測(cè)試中仍然高奏凱歌,而Prescott則不停扮演墊底的角色,處境十分尷尬。 <

    最后,是圖形工作站性能的測(cè)試,此部分測(cè)試主要分為預(yù)覽性能測(cè)試以及處理器成品渲染測(cè)試兩大部分,測(cè)試時(shí)使用了NIVIDA公司最新推出的QaudroFX1100顯卡,測(cè)試時(shí)桌面分辨率統(tǒng)一保持在1280×1024×75Hz。

    我們將首先進(jìn)行預(yù)覽性能的測(cè)試,時(shí)間關(guān)系,預(yù)覽性能的測(cè)試部分我們僅選用了Spec組織最新發(fā)布的Specviewpref 7.1.1版本進(jìn)行對(duì)比測(cè)試,測(cè)試時(shí)針對(duì)測(cè)試的項(xiàng)目分別開(kāi)啟了專用優(yōu)化,同時(shí)關(guān)閉了超線程支持。測(cè)試結(jié)果如下:

    俗話說(shuō),姜還是老的辣,在Specviewpref的測(cè)試中,Northwood的表現(xiàn)正是如此,它占據(jù)了所有子項(xiàng)目測(cè)試的頭把交椅,至于Prescott的疲軟表現(xiàn),我想大家已經(jīng)不會(huì)感到太意外了吧。同時(shí)我們也可以看到,Athlon64 3200+的表現(xiàn)在某些子項(xiàng)目測(cè)試中與P4的差距還是十分明顯的。

    緊接著,我們進(jìn)入處理器成品渲染測(cè)試的環(huán)節(jié),首先是3dsmax5.0的測(cè)試,測(cè)試時(shí)均開(kāi)啟超線程功能。測(cè)試配置請(qǐng)點(diǎn)擊此處察看,以下為測(cè)試的結(jié)果:

    在3dsmax5.0的成品渲染測(cè)試中,三個(gè)測(cè)試的畫(huà)面復(fù)雜度由低至高依次排列,Prescott的成績(jī)依然比Northwood差一截,而Athlon64 3200+的表現(xiàn)則與游戲測(cè)試時(shí)的表現(xiàn)形成鮮明的對(duì)比。

    最后,是Cinebench2003的成品渲染測(cè)試,分別在打開(kāi)超線程和關(guān)閉超線程的情況下作了測(cè)試。以下為測(cè)試的結(jié)果:

    Prescott的表現(xiàn)依然令人失望,沒(méi)有打開(kāi)超線程時(shí)得分甚至與單通道的Athlon64 3200+持平,打開(kāi)超線程之后與Northwood差距依然較大。<

    縱觀此次測(cè)試的結(jié)果,盡管Prescott核心的P4處理器在內(nèi)部架構(gòu)做出了一些改良,并在處理器制作工藝上又邁進(jìn)了一步。但在硬件方面,在管線級(jí)數(shù)較長(zhǎng)的配置上起始頻率低,造成不能完全發(fā)揮新架構(gòu)的優(yōu)勢(shì);首次采用的90nm制程工藝也有需要進(jìn)一步完善之處,造成處理器發(fā)熱量較大;軟件方面,使用SSE3指令編寫(xiě)的程序仍未及大量上市,也對(duì)新核心的性能發(fā)揮形成了制約。

    然而,我們也必須看到,即使工作在較低的初始頻率,但Prescott在超線程方面的表現(xiàn),無(wú)疑是比舊有的核心有了長(zhǎng)足的進(jìn)步。隨著核心頻率的進(jìn)一步提高,Prescott的整體性能也必將超越只能在頻率上原地踏步的Northwood系列。

    而過(guò)去AMD K8處理器所獨(dú)有的32/64位平臺(tái)兼容特征也被預(yù)置在Prescott之中,給對(duì)手AMD造成了新的威脅。未來(lái)一段時(shí)間內(nèi),桌面處理器的兩強(qiáng)之爭(zhēng)必然愈演愈烈,形勢(shì)也將愈發(fā)錯(cuò)綜復(fù)雜,本站將與廣大讀者共同關(guān)注!<

0人已贊

關(guān)注我們

泡泡網(wǎng)

手機(jī)掃碼關(guān)注