終極指南:2013年手機CPU的現(xiàn)狀與未來
什么是技術所無法改變的事物?對于智能手機而言,一是客觀存在的物理定律,二是人的生理需求。因為本文的主題是處理器,因此我們把目光集中在處理器系統(tǒng)上。
可以確定的是,只要技術還沒有進步到手機可靠意念操作,那么人體對設備溫度的可以接受上限就是確定的;而只要手機還符合物理定律,在一定溫度下它所能散發(fā)的熱量也是固定的(不考慮主動散熱,例如內置風扇),這就勾勒出了一條“生死線”——在舒適的前提下,一個確定尺寸的手機,所采用的硬件功耗,或者說處理器系統(tǒng)的功耗是有極限的,只要超越這條線,就必須要降低工作頻率,否則將會無法阻止溫度的上升,性能自然也就無從談起。因此我們認為,“手機的極限功耗不應該超過其最大可散熱功耗”可以作為衡量產品的準繩。
(Galaxy S4發(fā)熱量測試,本表格數(shù)據(jù)來自太平洋電腦網(wǎng))
長久以來,業(yè)界都習慣于用配置和價格的關系作為評價標準,但是如果聯(lián)系到配置與性能脫節(jié)的現(xiàn)實,這個標準已經瀕臨失效,因此我們需要提出一個新的評判標準,不妨姑且將其稱為“體效值”。
何謂體效值?我們將體效值定義為設備體積與能耗系數(shù)的乘積,它代表了一臺手機所可以連續(xù)提供的極限性能。將這個參數(shù)與理論最大性能聯(lián)合評價,能得出以下的結論:如果系統(tǒng)的體效值小于最大性能,那么這套系統(tǒng)就必然是錯誤的,因為存在著浪費。但是如果體效值大于最大性能,那么這套系統(tǒng)有可能陷入“性能不夠用”的疑問。非常好的情況是體效值和最大性能相同,這意味著這套系統(tǒng)所蘊含的性能可以全部發(fā)揮,做到了設計可以得到的極限。你可以把“體效值”簡單理解為“每瓦特性能”。
任何一臺手機機體,在有限的時間段內帶走熱量的能力都是有限的
手機絕對性能的測量相對簡單,因此體效值中最關鍵的部分是“體”,即手機體積所能容納的最大功率。這方面目前沒有明確的行業(yè)標準,因此我們需要做一些假設。首先,我們假設在現(xiàn)在以及將來的一段時間內,手機將主要依靠外殼進行被動散熱,不會像電腦一樣引入風扇等主動散熱手段。其次,我們將人體感溫度舒適上限設為40度,而耐受極限設為50度。最后,我們將手機工作時環(huán)境溫度設為25度,并且假定沒有氣流存在。
無外界對流時,手機的熱量散發(fā)主要依靠空氣的自然對流與本身的輻射。假定手機的溫度為介于舒適上限與耐受極限之間的45度,那么與環(huán)境溫度的差值即為20度。相對于手機這個體積的設備而言,四個邊側面的散熱貢獻可以忽略不計,主要的散熱面為前后兩個面。計算時假定手機為垂直放置。
下面計算開始,首先計算對流散熱量,我們選擇iPhone 5作為標準對象。iPhone 5的尺寸為123.8×58.6×7.6毫米,因此正面的面積為0.0073平方米。垂直放置的情況下,iPhone 5一個正面的傳熱系數(shù)為4.65W/(m2?℃),也就是說這樣一個表面可以靠對流散發(fā)的熱量是0.68W,由于有兩個表面,因此靠機身自然對流可以散發(fā)的熱量為1.36W。考慮到還有側邊的存在,我們可以認為這個功率是1.5W。
接下來計算輻射熱量。由于iPhone 5的材質是鋁合金和玻璃,氧化鋁合金的輻射率大約在0.3左右,而玻璃的輻射率大約是0.85,因此整體輻射率取0.6,那么在外殼溫度整體為45度的時候,靠輻射可以散發(fā)的熱量經過計算大約是1.16W。
也就是說,一臺通體45度,垂直置于靜態(tài)25度的環(huán)境中的iPhone 5,可以散發(fā)的熱量極限是2.66W。
實際環(huán)境中,考慮到用戶體驗,手機不會也不可能做到整機均勻發(fā)熱,這無疑會降低手機的散熱能力,但由于人體與手機的接觸也可以帶走一定的熱量,因此兩者互有增減,相信整體的散熱功率不會與計算數(shù)值差距過大。因此,大約2.66W就是iPhone 5所能承受的最大整機功率(這里直接使用了整機功率,這是因為目前電子產品除了天線部分以外,消耗的電能絕大部分都轉化成了熱量,耗電量和發(fā)發(fā)熱量基本相等)。
曾經廣為流傳的兩個手機CPU溫度測試視頻:
再來看看Galaxy S4。由于計算的方式是相同的,因此過程就不給出了,唯一的不同是,作為塑料外殼的Galaxy S4,在熱輻射效率上要遠高于鋁合金的iPhone 5,具體來說在0.9左右(看來塑料機還是有一些好處的)。結果直接給出,Galaxy S4在同等條件下的散熱量為4.15W。
Galaxy S4旗艦安卓手機的代表,因此更大尺寸的機器我們就不計算了。結果顯而易見,對于iPhone 5這種尺寸的手機而言,系統(tǒng)的極限功率是2.66W,而Galaxy S4尺寸的產品則為4.15W。體積處于兩者之間的產品,散熱能力則介于它們之間。至此,體效積中的體就已經有了結論。因為這個參數(shù)是不會因為技術提升而改變的,所以它可以作為我們判定未來新技術與新可能的良好標準。也就是說,對于一臺5寸手機而言,我們可以得到的最大性能就是4.15W×每瓦特性能,不論這臺手機的理論性能有多么強大。換句話說,只要一臺5寸手機的整機最大功耗超過了4.15W,那么我們就一定可以判定:它的性能無法發(fā)揮。
進一步的,對于一臺手機而言,屏幕所占據(jù)的功耗大約從4寸的1.2W到5寸的1.8W不等,因此我們可以得出,極限散熱功耗中,留給CPU、GPU、內存等計算系統(tǒng)的功耗上限,對于iPhone 5尺寸的手機而言是1.5W左右,對于Galaxy S4尺寸的手機而言是2.5W左右。
需要說明的是,在計算散熱量時,我們所關注的對象是手機外表面,至于內部是如何傳熱的,對結果不會有影響??赡苣銜嬖谝蓡?,某手機內含熱管,某手機擁有石墨散熱膜,散熱要好得多——這是錯誤的,輔助散熱措施只是增加了手機內部的熱傳導效率,最終效果是提高手機整體的溫度均勻性,而我們在計算的時候已經假定了這個數(shù)值是100%,也就是內部熱傳遞設計為完美狀態(tài)的極限結果。
至此,我們可以對智能手機“核戰(zhàn)爭”帶來的問題給出一個精確的描述:由于近年來手機配置的瘋狂提升,導致手機的最大性能已經超越了體效值。這個前提下,任何理論性能的提升都是紙面的,功耗已經成為了一堵不可逾越的墻。在可以預見的未來,如果我們希望繼續(xù)提升手機的性能,那就只能在能耗系數(shù)上下功夫。
OK,帶著這個結論,讓我們來重新審視一番市面上的主流手機處理器。
首先我們來看一看高通。之所以首先觀察高通,是因為相對而言高通的產品是變化幅度最小的,因此我們可以借用的歷史數(shù)據(jù)就最多。在《四核處理器?上》成文時,高通的最新產品是S4 Pro APQ8064。而在我們撰寫本文時,高通重新命名了它的產品線,S4 Pro有了繼任者驍龍600。這是一顆和APQ8064區(qū)別很小的芯片,最大的提升在于內存從雙通道LPDDR2 533變成了雙通道LPDDR3 1066,因此我們不打算深究這顆芯片。
高通的重頭戲,以及下半年乃至明年的主打,將是驍龍800。它擁有改進后的Krait 400核心,主要改動是調整了內部緩存架構,降低異步設計帶來的影響。同時,驍龍800引入了HPM工藝,主頻達到了2.3GHz,成為手機SoC中的一個超過2GHz大關的產品。除此之外,驍龍800還集成了新的Adreno 330 GPU,性能與規(guī)模再次翻倍。
驍龍800核心照片
相信看過之前的文章后,現(xiàn)在的你已經不會被上面充滿誘惑力的宣傳所擊倒。是的,我們再次重復一遍:絕對性能的提升沒有意義,決定用戶體驗的是體效值,或者說每瓦特性能。那么驍龍800的每瓦特性能有沒有提升呢?
首先我們來看一看CPU部分。由于緩存的增強,Krait 400核心的執(zhí)行效率必然會得到一定的提升,但是Krait核心從本質上來說依然是一個“增肥”版的Cortex A9,它所面對的最大問題其實是由于指令隊列的不足,導致架構的IPC受限。
Krait的后端就像是規(guī)模巨大的工廠,而經過持續(xù)的升級,Krait的前端已經從小港口變成了大型碼頭——但是連接它們的依然只是一條省道。這樣的架構也許可以在理論測試中獲得極高的成績,但是在實際變幻莫測的應用代碼面前,往往無法發(fā)揮應有的效率,根據(jù)某些第三方測試,在諸如視頻解碼、文件壓縮與解壓縮等應用中,Krait 300核心的同頻性能有時會不如Cortex A9甚至A7。這雖然不足以定性的給這個架構下結論,至少也可以說明一部分的問題。
文件壓縮速度,驍龍600的Krait 300內核同頻性能甚至不如Cortex A7
因此,綜合來看,Krait系列核心的能耗,恐怕是比較悲觀的——上篇中我們做過相應的比較,得到的數(shù)據(jù)也傾向于支持這樣一個結論。APQ8064的執(zhí)行效率并不如Cortex A9,Krait 400核心雖然經過了兩次升級,但是考慮到Krait 300的實際表現(xiàn),我們認為其執(zhí)行效率至多只能達到略高于A9的水平。也就是說,Krait 400架構效率上并沒有大幅超越Cortex A9。
那么產品效率呢?在這之前筆者需要稍微岔開一些話題。不知道你是否發(fā)現(xiàn),我們在對比效率的時候往往都會和Cortex A9相比,準確來說是和SAMSUNG Exynos 4412相比。為何要用它作為基準?這并不是因為偏心或是對于三星有著額外的好感,原因很簡單,那就是根據(jù)之前我們對手機極限功耗的定義,在那樣的功耗限制之下,Exynos 4412是體效值與絕對性能之間最接近的產品:Exynos 4412的核心,工作在1.4GHz時單顆功耗約為440mW,1.6GHz約為600mW,總功耗即為1.8W與2.4W。因此Exynos 4412是一個極好的標準——如果有產品的效率比4412高,它就可以發(fā)揮出比4412更加優(yōu)越的實際性能,否則就只能在降頻中工作。
來自Anandtech的測試,驍龍S4 APQ8064單個核心的功耗大約是700mW
在驍龍800以外的產品中,高通采用的是28LP SiON/Poly工藝,這會導致漏電增加,繼而降低能耗比。在上篇中我們引用外媒Anandtech的結論,得知28LP工藝的驍龍APQ8064,運行在1.5GHz的頻率下,單個核心的功耗大約是700mW。
而到了驍龍800,高通終于引入了先進的HKMG技術,將工藝更換為了28HPM。那么,這個工藝是否能提升驍龍800的能耗比?根據(jù)TSMC對于28HPM的工藝描述,我們認為這個答案同樣也許是比較悲觀的,因為28HPM本質上是用來提升性能的工藝,它的主要目的是讓驍龍800得以運行在使用28LP的驍龍600所無法達到的高頻下,但是處理器本身的漏電并不會因此而減小。
臺積電四種28納米工藝的區(qū)別
我們粗略估計,運行在2.3GHz下的Krait 400核心,即便只考慮頻率的提升,單個核心滿載的功率也將超過1W,四核心的總功耗則會遠超2.5W的散熱功耗上限。至于能耗比,在低頻段,驍龍800的能耗比也許可以略超龍600,但是總體來說我們并不認為驍龍800在CPU部分的能耗比會大幅領先于Cortex A9,也就是說驍龍800的體效值將明顯小于極限性能。
按照我們之前的分析,驍龍800在手機上的長期性能表現(xiàn)就將不會比Cortex A9提升太多(短期性能表現(xiàn),例如基準測試,會因為設備的熱容以及溫度滯后效應而大幅提升,但是只要工作足夠長——不超過三分鐘——的時間后,性能將會降低到Cortex A9水平)。
使用工具監(jiān)控驍龍APQ8064的CPU頻率變化,運行2分鐘以后,CPU頻率降低到了1GHz以下
使用工具監(jiān)控驍龍600的CPU頻率變化,Krait 300核心根本無法維持全速工作
那么GPU部分呢?這方面的問題可能會比CPU更加嚴重。高通Adreno 300系列GPU的超低能耗比已經是眾人皆知的問題,其嚴重程度遠超CPU。由于GPU相對于CPU而言是低頻大規(guī)模電路,因此它對于漏電的敏感程度要遠高于CPU,對于頻率的敏感程度則不如CPU。驍龍800所集成的Adreno 330相對于Adreno 320而言規(guī)模提升了一倍,因此功耗的提升幅度自然也不會小到哪里去,我們假定Adreno 330可以借助HPM工藝,完全避免功耗的提升,它的能耗比能有多高?
對于這個問題,我們可以通過一個粗略的測試來判斷。Galaxy S4和配備了驍龍600的手機,在3Dmark中的得分基本是相同的,但是根據(jù)耗電量得出的整機功耗估值方面,Galaxy S4所具備的SGX544MP3 GPU的功耗幾乎只有Adreno320的15%甚至更低,換句話說就是SGX544MP3的能耗比幾乎是Adreno330的7倍——實際上,根據(jù)粗略測試的結果,Adren 320的功耗已經達到了大約6W,不論這個數(shù)字是否精確,Adren 320早已遠遠超過了2.5W,甚至4.15W的散熱功耗極限。性能翻倍dreno 330即使維持功耗不變,也將和CPU一樣,在實際工作中也將永遠不可能發(fā)揮出其最大性能,它的體效值同樣遠遠小于理論最大性能。
最終,我們對于驍龍800的預期表現(xiàn)是比較悲觀的。我們認為,在CPU部分,配備驍龍800的產品,并不能讓用戶得到遠超四核心Cortex A9——如宣傳、測試以及參數(shù)上那樣——的實際體驗,而GPU方面則更會遠遠不如SGX544MP3,不論理論測試有多么強大。驍龍800并沒能有效提升能耗比,因此裝有驍龍800的產品,其體效值將遠遠小于宣傳的性能,作為結果,消費者購買的大部分參數(shù)和數(shù)字,將會永遠停留在紙面上——當然,還有基準測試軟件里。
雖然都屬于Tegra 4家族,但是實際上Tegra 4和Tegra 4i的核心并不相同:前者基于Cortex A15,而后者基于改進版Cortex A9。對于后者我們不會多加論述,我們將主要關注前者。
如同Tegra3,Tegra 4也引入了nVIDIA自行設計的vSMP 4+1技術。因此對于Tegra 4的效率分析,將會分為兩個部分:4核部分與附加單核部分.
首先是4核部分。Tegra 4的所有核心都是典型的Cortex A15架構,工藝使用了TSMC 28HPL,因此對于這一部分的分析我們可以找到一個極好的參照物,那就是Nexus 10所配備的Exynos 5250。后者是一枚雙核Cortex A15、32nm HKMG LP工藝、工作頻率1.7GHz的SoC。根據(jù)已有的測試結果,Exynos 5250的CPU功耗為4W,也就是說單核功耗為2W。這項對于Exynos 4412的440/600mW而言是一個相當大的數(shù)值,這也意味著Cortex A15的性能必須要四倍于Cortex A9,才可以維持效率的一致。NV做到了嗎?很明顯,也很遺憾,沒有。Cortex A15的性能提升幅度遠遠沒有功耗提升幅度大,兩者之間的差距導致了Cortex A15的每瓦特性能相對于Cortex A9來說有著至少一半的下降。
采用A15架構的Exynos 5250單個CPU核心功耗約為2W,數(shù)據(jù)來自Anandtech
那么回頭來看看Tegra 4。由于核心是相同的,我們只需要對比工藝。TSMC 28HPL相對于三星32nm HKMG LP,究竟有沒有性能和漏電方面的提升我們很難判斷,但是大體上兩者屬于同一時代的同一水準工藝,相信差距并不會過大,我們假設臺積電的28LP工藝總體能耗比三星降低30%——這已經幾乎是同一代工藝可以存在的最大差距——這也遠不足以抵消Cortex A15和Cortex A9近乎200%的差距,更何況Tegra 4的主頻高達1.9GHz,這進一步降低了它的功耗可以低于2W/核心的可能性。這也就意味著,即便只有一顆核心工作,Tegra 4的功耗就已經逼近了4寸手機的散熱功耗極限,而四核同時工作,如果不加限制,CPU部分的總功耗必將輕松突破8W。
Tegra 4功耗有多大NV很清楚,所以給自家的Shield游戲機裝上了風扇!
既然能耗比如此之低,那么技術有何改變、理論性能有何提升、在哪里提升就完全沒有意義了。在手機上,Tegra 4的四枚Cortex A15所能發(fā)揮出的長期性能,除了極少數(shù)情況下,可以幾乎肯定的說,將遠不如一個設計優(yōu)秀的四核Cortex A9處理器。
那么輔助的拌核部分呢?NV沒有公布拌核的細節(jié)資料,我們假設它工作在1GHz,由于HPL工藝帶來的低漏電,預計可以讓這枚核心的功耗降低到0.6W左右,大約等同于一顆1.6GHz的Cortex A9。在這個工作條件下,Cortex A15的能耗比和Cortex A9比較接近,因此它們具備了接近的體效值。但是此時的Tegra 4,絕對性能只有四核Cortex A9的四分之一,體效值遠遠高于絕對性能,這也就意味著此時的Tegra 4會因為過慢而無法滿足用戶需求。
伴核要想省電,必須工作在更低的頻率
綜上所述,Tegra 4不論在哪個模式下,所能提供的最大性能都難以超越四核心Cortex A9處理器,把這樣一顆處理器做進手機唯一的意義也許只有一個——想方設法讓手機堅持滿載運行三分鐘,跑出一個驚世駭俗的基準測試分數(shù),給手機發(fā)燒友作茶余飯后跑分攀比的資本,就好比購買超級跑車上下班,除了炫耀以外沒有任何意義。
至于Tegra 4的GPU部分,由于目前資料較少,所以無法給出分析對比,希望讀者海涵。
當然我們也需要明白,Tegra 4的悲劇并不全是由于Tegra 4本身或是nVIDIA的技術實力導致的,究其根本,元兇還是Cortex A15核心過低的能耗比。這也決定了不僅是nVIDIA,其他任何試圖在產品中引入標準Cortex A15架構的廠家,例如未來的華為海思K3V3,最終都將難逃“性能超不過A9”的魔咒。對于手機等便攜式設備而言,Cortex A15毫無疑問是一個失敗的設計,也無怪乎高通和蘋果在幾年前就決定放棄這個架構,自行以Cortex A9為基礎發(fā)展自己的強化核心。這也從另一個方面看出,至少在目前可以看到的ARM產品中,Cortex A9依然是可以提供最強實際性能的產品,即便它已經問世超過了2年。
最后提一下Tegra 4i。相信nVIDIA規(guī)劃這樣一個產品,也是因為NV實際上非常明白Cortex A15是一顆怎樣的核心。因此,我們甚至可以理解為,Tegra 4i才是針對手機市場所推出的高性能產品。改進的Cortex A9 r3p1核心可以帶來最多15%的同功耗性能提升,也就是更高的體效值與實際性能。但是Tegra 4i卻如同驍龍800一般選擇了HPM工藝,并且因為需要集成基帶而無法在2013年上市,這對于Tegra 4i和nVIDIA而言無疑是徹頭徹尾的悲劇,尤其是如今Cortex A12箭在弦上的情況下。如果說Cortex A15可以看作ARM在被成功沖昏了頭腦之后的大躍進,那么后者就可以看作是ARM在大躍進失敗后的反省之作,肩負了Cortex A9正統(tǒng)繼任者的使命。對于它,我們在后面予以討論,這里暫不多言。
最后來談一談技術最為復雜,同時爭議也最大的三星Exynos 5 Octa(Exynos 5410)。這個芯片最大的特色就是整合了ARM的big.LITTLE技術,內部集成了8個核心——四個Cortex A15為一組,四個Cortex A7為一組,從而成為了手機上第一枚超越四核的片上系統(tǒng)。
也許你會提出質疑,NV的Tegra 3和Tegra 4實際上也擁有5個核心,為什么它不能算作是五核SoC呢?原因很簡單,因為Tegra多出來的那一枚核心其實設計上是作為四個主核心其中之一的映射,在實際工作中系統(tǒng)是識別不出這一顆核心的。
但Exynos 5 Octa不同,它的八顆核心在某些情況下是可以同時運行的,因此可以稱之為八核SoC,雖然實際情況下這樣的工作模式不一定會被用上,關于這點,即Exynos 5 Octa是否是偽八核,同樣也是圍繞這顆芯片的眾多爭議中最大的一個,對此后面我們會詳細討論。
Big.Little架構
除了big.LITTLE以外,Exynos 5 Octa本質上是一顆非常典型的處理器,它擁有標準的Cortex A15核心、標準的ARM系統(tǒng)IP,支持的規(guī)格與系統(tǒng)配置也一如三星以往的風格,優(yōu)異而不頂尖。LPDDR3 1600的內存支持與12.8GB/s的理論帶寬在手機SoC中實為翹楚,而PowerVR SGX544MP3運行在533MHz的高頻下,假如不考慮信息尚不明確的Tegra 4,性能也足以進入ARM世界的前三:僅次于iPad4的SGX554MP4和驍龍800的Adreno 330。
工藝方面,三星使用了自家最新的28nm HKMG LP,根據(jù)三星的宣傳資料,相對于32nm HKMG,28nm HKMG主要的提升在于集成度,也就是單位面積下可以實現(xiàn)更多的晶體管,提升幅度大約在35%左右。至于漏電等工藝性能,我們有理由認為不會和32nm HKMG,也就是上一代的Exynos 4412所采用的工藝有太大的差別,具體原因在上篇中我們也多有提及。三星32nm HKMG實際上是一個性能相當強悍的工藝,Exynos 5 Octa的基礎至少也是有所保障的。
不過,如同之前說過的,Cortex A15本身不是一個利于手機使用的架構,只要把它做進手機,都要面對功耗難題,,三星也不能例外。Exynos 5 Octa的最高頻率目前并沒有明確的說法,也許會在1.7到1.9GHz之間,但我們知道的是,在Galaxy S4上,Exynos 5 Octa的最高頻率只開放到了1.6GHz。
1.6GHz的標準Cortex A15核心滿載功耗不會低于1.8W,三星即使經過大量優(yōu)化,Exynos 5410四顆A15核心的總功率也依然要在6W以上,這大大超越了2.5W乃至4.15W的散熱極限。實際情況可以作為這個推斷的非常好的例證:Galaxy S4的CPU滿載工作的時間只能達到區(qū)區(qū)10秒,之后就不得不因為核心溫度突破90度而被迫關閉Cortex A15核心。
Exynos 5 Octa是一個明顯的市場導向產品,三星在設計它的時候,考慮優(yōu)先點是市場對于參數(shù)的需求,而完全不顧這樣規(guī)模的硬件是否可以安全的工作。當然,作為應對,ARM提出了big.LITTLE,三星也將其引進到產品中,但是這樣的行為并不能本質上改變這個設計的失敗之處。有人也許會說,這不是很好嗎,何來失???那就讓我們繼續(xù)研究下去。
運行5秒鐘以后,獵戶座5處理器的A15核心即開始降頻
現(xiàn)在讓我們來打個賭:如果你是Galaxy S4八核版的用戶,你絕對會有這樣的體會:Exynos 5410處理器主頻在實際運行中非常不穩(wěn)定,低于標稱的1.6GHz是常態(tài)。
在Exynos 5410中,Cortex A15四核的最低工作頻率是1.2GHz,而Cortex A7四核的最高工作頻率也是1.2GHz。問題是,這兩者的同頻性能并不一樣,導致以頻率為控制參數(shù)的算法比較難寫。于是三星在系統(tǒng)中將Cortex A7的有效頻率顯示為實際頻率的一半,并以此作為控制參數(shù),就實現(xiàn)了較為線性的頻率——性能曲線。
也就是說,只要你看到Exynos 5 Octa的工作頻率是1.2GHz以上,就意味著現(xiàn)在是Cortex A15在工作,而600MHz則意味著Cortex A15已經關閉,系統(tǒng)已經切換到1.2GHz的Cortex A7。由于頻率調節(jié)十分頻繁,所以這給我們計算Exynos 5 Octa的效率帶來了一定的困難,不過我們依然可以從實際工作的情況下對于極限性能給出近似的計算。
Exynos 5410 CPU + GPU同時滿載的情況,注意下方的頻率曲線
根據(jù)愛活網(wǎng)友站enet的測試結果,在滿負荷工作的時候,Exynos 5410的工作模式大約如下:Cortex A15于1.6GHz工作6秒左右,于1.2或1.4GHz工作4秒左右,然后切換到1.2GHz的Cortex A7工作10秒左右,并且在這樣的序列下循環(huán)。由于頻率調節(jié)的目標是功耗以及溫度,因此我們可以近似認為在這樣的工作序列下,處理器系統(tǒng)的平均功耗大約是2.5W左右。如果將Cortex A15的性能歸一化為同頻Cortex A9的1.5倍,Cortex A7為0.7倍,因此我們可以得到在這20秒內,Exynos 5 Octa所輸出的總性能相當于四核Cortex A9運行在1.53GHz時的性能。也就是說,Exynos 5 Octa所能提供的持續(xù)性能,甚至還不如Exynos 4412,因為后者在2.5W的功耗限制下可以運行在1.6GHz。
Exynos 4412依然是能耗比最為均衡的手機處理器
當然,這個結論有些粗略,我們只驗證了基準測試時獵戶座5處理器的CPU頻率變化,實際應用中可能有所不同,但有一點可以確定,那就是Exynos 5410在手機上可以發(fā)揮的性能遠遠低于硬件設計的極限性能。Cortex A7與Cortex A15聯(lián)合的效率,大約和Cortex A9不相上下,這也就意味著配備了Exynos 5 Octa的設備,其體效值并不會比Exynos 4412高。
然而,這并非Exynos 5 Octa的非常好的工作模式。ARM big.LITTLE技術其實包含有三種工作模式:整體遷移、非對稱多核心與異構多核心。整體遷移模式指Cortex A15或Cortex A7輪流工作,兩者無法同時激活,具體開啟的核心數(shù)字根據(jù)系統(tǒng)負載決定。非對稱多核心則是將Cortex A15四核簇和Cortex A7四核簇看作兩組非對稱多核心簇,依靠外部總線工作在異步模式下,從而啟動所有的八個核心。而第三種是最誘人的,也就是將每一個A15與A7組合成為一個“處理器對”,將其看作一個單獨的處理器,系統(tǒng)根據(jù)需求開啟若干個“處理器對”,而每一對處理器究竟使用Cortex A15還是Cortex A7,完全根據(jù)該核心的負載決定。
從理論上來說,Exynos 5 Octa支持全部的三個模式,但是三星目前在系統(tǒng)中卻只支持了第一種模式,產品中的工作模式也只有整體遷移。這導致一些人認為三星這顆CPU的技術開發(fā)尚未完成,是“半成品”,因此并沒有實現(xiàn)非常好的的工作效果。甚至有一些分析表示,這是源于Exynos 5 Octa的硬件設計缺陷導致的,需要在未來的產品中才能修復。對此,我們認為這樣的說法既是對的,也是錯的。
big.little的三種工作模式
為什么這樣說?前提是,單純的降低功耗并沒有意義,只有提升體效值才可以獲得更強的性能。對于Exynos 5 Octa而言,其他的兩種工作模式似乎可以降低功耗,但可以提升每瓦特性能嗎?這是一個未知數(shù),而且是一個相當不容樂觀的未知數(shù),原因之一就在于Exynos 5 Octa的兩組處理器,二級緩存的大小不同。
根據(jù)架構圖,Exynos 5 Octa的Cortex A15部分,二級緩存為2MB,而Cortex A7部分只有512KB。如果是Cortex A9時代,這并不是問題,因為所有的二級緩存都是靠總線實現(xiàn)的訪問。但是在Cortex A15和A7時代,ARM為了提升緩存效能,將L2 Cache整合進了多核心控制器SCU中,它的壞處就在這里:一旦系統(tǒng)內同時存在著激活的Cortex A7和Cortex A15,那么由于二級緩存的大小不同,兩組核心之間的聯(lián)合工作將會變得非常麻煩。
二級緩存是內存的映射,所以所有核心所訪問的二級緩存的數(shù)據(jù)必須完全相同。Cortex A15和Cortex A7各自擁有自己獨占的二級緩存,當兩者協(xié)同工作時,緩存是無法共享的,維護兩組L2之間的數(shù)據(jù)一致性會變成一件非常重要同時也非常影響性能的事情。高通的異步架構之所以有性能損失,一致性開銷就是其中很重要的因素之一。
在Exynos 5 Octa中,兩組A15和A7核心的二級緩存大小不同,這就意味著即便是在最好的情況下,也會導致Cortex A15處理器簇的有效L2從2MB縮減到512KB,這對性能的影響極為巨大。
同一個處理器中,A15核心和A7核心的緩存容量根本就不相等,在它們公布工作時會帶來問題
所以,三星選擇了只實現(xiàn)第一種工作模式。在這個模式下,緩存一致性無需維持,只需要在切換時通過內存將緩存數(shù)據(jù)復制即可(A7到A15可以視作部分填充,而A15到A7可以丟棄超出512KB的部分),甚至可以更簡單的直接丟棄L2數(shù)據(jù),令其重新填充。因為相對于聯(lián)合工作所需要的一致性維護需求(其頻繁程度與緩存命中率相關,可能只比處理器時鐘頻率低2~3個量級)而言,由于動態(tài)頻率控制導致的核心切換要少的多,至多只有每秒百次的水平,因此這樣的損失是最少的,換句話說,另外兩種big.little模式雖然看起來更美好,但實際上反而會導致系統(tǒng)效率的降低,從而進一步降低搭載Exynos 5 Octa設備的體效值,使其變得比Cortex A9更慢。
從這個意義上說,如果你需要一顆手機處理器,至少在CPU部分,Exynos 5 Octa實際上相對于Exynos 4412而言是倒退的。這無疑是對于畸形市場需求的非常好的打臉:超高的規(guī)格,強大的指標,性能卻在偷偷的后退,不知道這到底迎合了誰的需求。
當然,Exynos 5 Octa也不全都是壞處。由于LPDDR3的引入,翻倍的內存帶寬可以極大提升系統(tǒng)在日常使用中的感受,因此總體而言Exynos 5 Octa的體驗不會有之前評價的那么悲觀,只是會距離你所認為的強大相去甚遠罷了。至于另一個好處則來源于PowerVR SGX544MP3這枚GPU。
就如同PC一樣,手機對于GPU的需求也慢慢超過了CPU。不客氣的說,現(xiàn)在的日常需求,一枚四核心Cortex A7就可以滿足了,但是游戲所需要的性能卻是永無止境的。在Exynos 4210“獵戶座”剛剛發(fā)布的時候,Mali400MP4幾乎可以滿足所有游戲,這枚GPU不僅速度飛快,而且極為省電,能耗比相當高。但是隨著手機游戲的進步,在Exynos 4412上這枚GPU已經顯出了疲態(tài)。三星在Exynos 5 Octa上作出更換GPU的決定非常及時。Exynos 5 Octa的3D性能達到了目前手機處理器的優(yōu)異水平,在日常使用中你有很多機會可以體驗到它帶來的提升。
根據(jù)粗略測試,搭載Exynos 5 Octa的Galaxy S4在運行3Dmark的時候,整機功耗不會超過2.5W,這也就意味著這枚GPU的滿載功耗將不會超過1.5W。這無疑是一個非常振奮人心的數(shù)據(jù),這意味著PowerVR SGX544MP3在維持了Mali400MP4能耗比的基礎上(嚴格來說仍然有一定的下滑,但是遠遠高于繼任者Mali T604)將其的最大性能擴展了幾乎四倍,這樣的提升才是符合用戶需求的提升。對于這樣的進步,我們需要高舉雙手給予掌聲。
雖然說我們之前通篇都在論述的觀點是目前旗艦手機平臺的性能受限于功耗,無法在日常使用中體現(xiàn),但是不得不承認基準測試也是部分用戶日常使用的功能之一,而且這些芯片“不管實際情況,就跑分到底誰最快”也是很多人很有興趣的問題之一。當然,相對于前幾年的產品而言,現(xiàn)在的平臺下跑分的意義不論如何都在變得越來越小,因此我們不會再像上篇一樣做連篇累牘的深入分析。取而代之的,我們只會從幾個理論測試軟件的成績里大概的看一下它們之間的勝負關系與潛力。
由于新一代手機處理器的降頻問題十分嚴重,因此我們不能簡單的去比較頻率與分數(shù),因為無法確定在實際測試中它們運行在什么頻率下。這個問題對于驍龍800而言相對小一些,因為Krait 400核心的實際功耗并沒有超越設備散熱極限太遠,因此我們有理由認為在諸如Antutu跑分這類間歇性滿載,且滿載時間不超過一分鐘的測試程序中,驍龍800是可以運行在全負荷的2.3GHz的(除非廠商設定的溫度控制閾值極為激進,)。
“絕不降頻”的APQ8064處理器,很可惜搭載它的是內置散熱片的高通開發(fā)參考平臺
Exynos 5 Octa的情況在之前已經有所說明,但是由于Antutu的滿載壓力并沒有系統(tǒng)穩(wěn)定性測試軟件那么高,因此我們假設Octa在跑Antutu時的頻率分布為1.6GHz、1.4GHz Cortex A15和1.2GHz Cortex A7各占1/3時間。這樣根據(jù)DMIPS的數(shù)據(jù)折算,整體性能相當于1.19GHz的Cortex A15??紤]到Cortex A7在整數(shù)部份的同頻性能與Cortex A15的差距并沒有DMIPS所顯示的大,但是浮點性能方面的差距非常明顯,因此在整數(shù)部分,等效頻率將會接近1.5GHz,而浮點部分則維持1.19GHz。
至于Tegra 4,對于一般手機而言它幾乎不可能跑到1.9GHz的滿載頻率,但是我們找到了nVIDIA Shield的測試結果。由于Shield擁有足夠的空間安裝散熱片,因此可以避免頻率的下降,因此在測試全程中,頻率應當都可以維持在1.9GHz。
下面就讓我們來看看結果。只采集CPU的整數(shù)和浮點部分。
結果一如我們的預料。如果不降頻,那么Cortex A15的絕對性能將是最為強大的,即便驍龍800擁有高達2.3GHz的主頻,它也不是全速運行的Tegra 4的對手。
同時,和Cortex A9的代表Exynos 4412比較的話,我們發(fā)現(xiàn)驍龍800的整數(shù)性能領先幅度并沒有頻率所表現(xiàn)的那么大,而Exynos 5 Octa由于過高的功耗,也沒有表現(xiàn)出應有的性能。
下面我們計算一下每MHz下各個平臺的對應性能:
再結合功耗,計算各個平臺的能耗系數(shù):
這個結果就比較有意思了??梢钥吹剑琓egra 4在整數(shù)和浮點性能方面,單位功率的性能都沒有超過Cortex A9,甚至整數(shù)方面的能耗比下降了一半。而Exynos 5 Octa在整數(shù)方面相對于Tegra 4的效率進步,更多的歸功于能耗比更高的Cortex A7內核,畢竟不論是A7、A9還是A15,整數(shù)運算單元都是兩個,理論上同頻整數(shù)吞吐量沒有區(qū)別,但是依然沒能對Cortex A9實現(xiàn)實質性的提升。而驍龍800延續(xù)了之前產品在整數(shù)性能方面能耗比不如Cortex A9的傳統(tǒng)。
因此,結論就十分清晰了:在限制運行在相同功耗的前提下,以對日常使用影響最大的整數(shù)性能而言,不論是驍龍800還是Exynos 5 Octa,都無法表現(xiàn)得比Cortex A9更好。當然這是理論測試,實際運行App時,由于處理器內部亂序執(zhí)行和分支預測等方面的增強,幾大主流新產品的表現(xiàn)會還是比上一代Exynos 4412強大一些,但是我們要重復之前說過的話:你不可能得到像測試分數(shù)那樣巨大的體驗提升,尤其是考慮到Tegra 4的跑分成績已經高達40000分,驍龍800的跑分成績超過了33000分,Exynos 5 Octa雖然不及以上兩者但也接近29000分,而Exynos 4412只有區(qū)區(qū)16500分。
如此夸張的性能差別只有在跑分時才能體現(xiàn)
總體來說,雖然有著諸如GPU性能的良性提升與內存性能的良性提升,但是星星點點的美好并不能掩蓋新一代處理器所面臨的整體的問題。在我們已經分析過的三個產品中,實際上沒有一個實現(xiàn)了效率的明顯進步。這意味著雖然它們每一個都宣稱自己比前一代提速xx%,但是實際使用中由于體效值的原地踏步,我們實際上無法感受到所宣稱的速度。這樣的情況維持一兩代還可以勉強接受,但是如果一直持續(xù)下去,相信消費者終究會疲勞,就像現(xiàn)如今陷入困境的PC市場一樣,最終不再有人愿意為新產品買單,而這顯然是手機廠家所不愿意看到的。
從核心上尋找提高能耗比的方式,以ARM的技術實力似乎已經走到了盡頭。那還有什么辦法可以推進效率的進步呢?答案也許只有工藝了。
通過改進處理器微架構來獲得性能提升是最體面的方法,也是最難的方法。從40年前的英特爾4004,再到今天的酷睿i7,IPS(每周期指令吞吐量)也就是從1提升到2再提升到3的進步。再往上,就撞到了難以逾越的功耗之墻。
如何打破這堵高高的墻壁?答案只有一個:更好的工藝。對于ARM而言尤其如此。5年前的ARM11處理器還在使用老掉牙的130nm普通CMOS工藝。而最近一到兩年,由于無法從核心上榨取更多的油水,業(yè)界開始用越來越新的工藝制作非常先進的ARM處理器,從45nm到32nm甚至現(xiàn)在的28nm,ARM處理器在工藝上的進步速度要遠超同期PC處理器。正是這些新工藝,支撐著ARM處理器在近幾年內以每年200%的速度在提升。
但是提到工藝,我們就不得不再一次提到一個詞:極限。沒錯,通過超量應用工藝,我們獲得了超量的性能提升,但是工藝的儲備并不是無窮無盡的,現(xiàn)在的我們已經走在了工藝的極限上。如果是傳統(tǒng)的工程極限,隨著新技術和新方法的發(fā)明,最終都可以實現(xiàn)突破,但是工藝面臨的這道極限的背后是物理定律。
在28nm以后,晶體管實在是太小了,小到我們必須重新梳理物理定律,才能準確掌握它的物理性質。隨著半導體工藝線寬邁入20nm以下,集成電路中的某些結構已經開始邁入介觀和微觀之間的灰色地帶。對于微觀世界,也就是量子世界,人們目前所掌握的物理學,并不能給出太多具備足夠工程價值的答案。
也許你很難想象,現(xiàn)代為處理器所使用的晶體管,其柵極漏電的很大一部分原因已經是量子隧穿效應。這是因為對于一個線寬只有30nm的晶體管而言,它的柵極絕緣材料的厚度只有不到2nm,也就是說,只有不到10層原子的厚度。而工藝非常先進的英特爾,其量產晶體管的柵極絕緣層厚度已經不到1nm,只有5層原子的厚度。在這樣的規(guī)模下,宏觀的物理定律已經有相當程度的失效,這個規(guī)模的晶體管會做出什么行為?更多的只能靠猜測,靠無數(shù)次的實驗。
當經典物理定律失效,人們需要在盲目的實驗中找到解決方案時,進步的速度就變得不再可以預測。
單個晶體管的絕緣層厚度已經只有數(shù)十層原子
2013年已經是28nm的時代,按照預測,2014年業(yè)界就將往20nm邁進。但是這一步能順利走出去么?相信沒人對此能有足夠的信心。作為世界上最大的代工廠,臺積電TSMC的工藝路線對于業(yè)界的影響力是最為巨大的,早在2009年,TSMC就已經宣布將要量產28nm邏輯電路工藝,但是實際情況是直到2011年底,TSMC都沒能拿出哪怕只用于性能測試的樣品芯片,而最終的量產一直到2012年6月才在跌跌撞撞中開始,前后延期達三年。那么,面對TSMC“2013年底量產20nm”的豪言壯語,你又能相信多少呢?
臺積電早先公布的路線圖,回頭來看雄心壯志基本停留在紙上
TSMC的下一代20納米工藝還面臨一個問題——性能提升將非常有限。從官方演示文檔中我們可以看到,TSMC的20nm規(guī)劃中,針對移動設備的工藝——也就是LP、HPL和HPM——被整合成了一種,名為20SoC。它的性能,以TSMC官方的預計,僅能實現(xiàn)漏電比28HPM降低20%、性能比28HPM提升15%的水平。希望各位注意,對比的對象是28HPM,而28HPM的漏電水平與28LP是接近的,也就是說從28nm到20nm,TSMC只實現(xiàn)了20%的漏電降低。
這是官方最樂觀的預計,而實際情況可能要比這個悲觀的多,一如TSMC對于28nm量產時間的預計一樣。那么我們就可以得到一個自然而然的預計:20nm時代,我們除了更高的集成度,什么都得不到。這就意味著,以20nm工藝制造的芯片,固然可以通過規(guī)模的擴大而獲得更大的理論性能,卻幾乎無法從工藝的進步得到單位功耗效率的提升。在目前手機處理器絕對性能已經超過體效值的大前提下,這樣的結論幾乎就已經宣布了,未來的產品不會為我們帶來更快的實際性能。
英特爾在2012年開始量產3D晶體管,臺積電至少要等到2015年
那么更先進的工藝呢?例如16nm?根據(jù)目前的規(guī)劃,TSMC將在16nm引入近年來半導體工藝中繼HKMG后最大也可能是最后的進步,也就是3D晶體管,又叫finfet。這個技術可以為單個晶體管帶來40%的性能提升,同時降低30%的功耗,目前已由英特爾量產,而整個業(yè)界只有英特爾實現(xiàn)了量產,由此可見其技術難度水平。我們沒有理由認為,TSMC對于finfet的引入會一帆風順,外加16nm對于EUV的需求以及EUV產業(yè)目前的狀況,至少在筆者看來,TSMC可以在2015年量產16nm finfet的概率幾乎為0。至于GlobalFoundries或者三星,前者目前剛剛實現(xiàn)28nm的量產,雖然幻燈片已經寫到了10nm,但是我們不應對其抱有太大的信心,而三星的產能過小,即便有良好的工藝,也無法支撐業(yè)界的需求,因此不需要投以太大的注意力。
這就意味著,2014年和2015年對于ARM而言會非常艱難。因為先進工藝在這兩年將出現(xiàn)空窗期,而沒有先進工藝的支持,ARM系產品的性能進步就只能停留在紙面。當然,也有一種選擇,那就是提前在20nm上——就像英特爾所做的那樣——引入finfet,但這會給本來就已充滿變數(shù)的20nm工藝增添新的難度,最極端情況下也許會導致2014年的徹底空白。因此我們似乎必須接受2014到2015年的空窗期。
那么,更先進,比16nm還先進的工藝呢?業(yè)界普遍認為,由于物理規(guī)律限制,目前常規(guī)晶體管的極限將在2nm左右到來,在這個規(guī)模下,基于宏觀原理工作的硅基半導體晶體管將徹底無法運行。而考慮到工程實際情況,也許在10nm時就已經會遭遇無法解決的問題。所以保守來說,我們依靠了40年,并以之建立了輝煌信息產業(yè)大廈的硅基半導體工業(yè),也許在10年內就會走到盡頭,我們所剩下的工藝,樂觀估計還有6代,悲觀估計可能只有4代。之后,人們就必須要想辦法去尋找新的原理,以新的材料制造新的器件。突破終將會到來,但是究竟需要多長時間?誰也沒把握,因為基礎物理已經80年沒有進步了,半導體行業(yè)在打光手中所有牌之后的痛苦空白期到底有多長,沒有人可以給出答案。
在前文中,我們將Cortex A15批得體無完膚,也許你要有疑問:既然A15在手機上表現(xiàn)如此糟糕,ARM為何還要設計出這么一個核心?答案非常簡單:ARM高估了半導體工藝的升級與技術進步速度,Cortex A15實際上是為20nm工藝所設計的核心。
讓我們把時間倒回到2008年,TSMC在當時提出了未來5年半導體工藝路線圖。如果一切都與圖中的宣傳精確吻合,我們在2010年就能用上28nm處理器,而在2012年,也就是去年,我們將邁入20nm時代。按照這個進度,ARM在2013年將核心進化至Cortex A15就沒有任何的問題。也許ARM的初衷是借助于20nm工藝良好的性能,可以強行將Cortex A15的實際功耗壓縮到0.5W以內,獲得兩倍于Cortex A9的能耗比提升。這點從早期TSMC和ARM的演示文檔中也可以看出來。而且,A15也的確做到了絕對性能提升兩倍的設計目標。
TSMC畫的大餅
只不過,工藝最終沒能按照ARM所設想的發(fā)展下去。28nm跳票到2012年,20nm還在遙遠的2014年,而且即便成功量產,其可以得到的性能提升也極為有限,一連串的意料之外造成了Cortex A15的尷尬定位。由于工藝的失算,Cortex A9事實上失去了后繼產品:Cortex A7的能耗比雖然很高,但其性能太弱,甚至不如Cortex A8;Cortex A15雖然絕對性能翻倍,但是能耗比過低,兩者都無法作為Cortex A9的繼任者。即便ARM通過big.LITTLE技術將二者捆綁在一起,最終實現(xiàn)的總體效率也只能基本上和Cortex A9打個平手,所謂的繼任者更多成了紙面上而不是性能上的。
很明顯,ARM被TSMC這個隊友坑慘了。
有趣的是,在ARM官方面臨產品線問題的時候,反而是兩家ARM IP的購買商——高通和蘋果——給出了比Cortex A15更好的解決方案。它們都規(guī)避了Cortex A15過于臃腫的架構設計,把注意力集中在對Cortex A9的優(yōu)化和提升上。不約而同的,它們都選擇了保留Cortex A9的前端、擴充Cortex A9的后端,區(qū)別是高通的著眼點在于提升指令的理論吞吐量,蘋果的工作重心在提升內存表現(xiàn)。當然,最終的結果我們看到了,高通的方案并沒有對Cortex A9形成實質上的優(yōu)勢,蘋果的方案則很難找到對比的標準,但是至少這兩家的行動方向是正確的。
因此在Cortex A15架構推出3年后的2013年,ARM痛定思痛,給出了自己針對這個問題的答案,那就是Cortex A12。
在設計規(guī)格上,ARM終于放棄了宏偉龐大的“200%性能提升”,轉而只給Cortex A12定下了比Cortex A9快40%這樣一個目標。這是一個相當現(xiàn)實的目標,尤其是考慮到Cortex A9的體系架構上的確存在一些過時的限制,讓我們來看Cortex A12是怎么改的。
首先,如同其他的ARMv7架構處理器一樣,Cortex A12提升了二級緩存的性能,學習前輩Cortex A15和A7的先進經驗,把二級緩存整合進多核心控制器,所有核心終于可以不用再通過一條可憐的64bit總線訪問自己的緩存,這將大大緩解擁堵現(xiàn)象。其次,Cortex A12把NEON和vFP提升到了第四版,并且和Cortex A15一樣引入了內部OoO(亂序執(zhí)行)設計,指令執(zhí)行時效率要比A9高很多。最后,A12的外部接口也從64bit AMBA 3升級到了128bit AMBA 4,帶寬提升一倍有余。
Cortex A12憑什么降低了功耗?主要是三方面,一方面是最大并發(fā)取指數(shù)從3降低到2,另一方面是大幅度縮減了指令派發(fā)隊列,最后一方面是大幅度縮減了運算單元的數(shù)量。由于指令派發(fā)隊列的意義在于可以支撐亂序執(zhí)行,它所對應的寄存器資源和硬連接資源是非常龐大的,Cortex A15為所有8組8個運算單元設計了完整的8個獨立指令隊列,這無疑消耗了巨大的電力,而Cortex A12把這個數(shù)字縮減到了3。與此同時,Cortex A12的運算單元也減少到3組6個,即整數(shù)、存取和FP/NEON,每一組內包含兩個運算單元,共享一個指令隊列。
而Cortex A9就相當寒酸了,只有一個指令隊列,支撐著2個整數(shù)ALU、一個存取單元和FP與NEON。僅僅依靠這樣的改進,Cortex A12就幾乎可以實現(xiàn)40%的性能提升,更不要說算上二級緩存、外部總線、以及更為前端的取指與解碼部分——例如數(shù)據(jù)與指令部分重命名與分派彼此獨立——的改進了??傮w來說,Cortex A12是一個與Cortex A9相比性能提升40%、功耗維持不變的架構,它單憑一己之力拯救了ARM處理器搖搖欲墜的每瓦特性能,可以說是ARM的救星。A12唯一的問題只有一個——它最早也要等到2014年中才可能有產品,那時ARM很可能已經被英特爾大卸八塊了。
如果我們把Cortex A12與高通Krait、蘋果Swift放在一起看,可以發(fā)現(xiàn)一些比較有趣的地方。與ARM不同,高通Krait幾乎保持了Cortex A9的前端設計,唯一的增強是取指部分的并發(fā)能力提升到3,后端則和Cortex A15一樣堆積了數(shù)量巨大的執(zhí)行器,具體來說是7個。這樣的架構瓶頸來自于連接前端與后端的中間部分,導致Krait在實際應用中根本無法發(fā)揮其3300DMIPS——只比Cortex A15低5.7%——的理論最高性能。至于蘋果Swift,由于缺乏資料與有效的對比方式,在這里并不能給出太多的分析,但是蘋果的優(yōu)勢在于硬件與軟件之間可以做到完全的匹配,因此即便蘋果對Cortex A9進行如高通一般的單方面增強,也可以依靠自身的操作系統(tǒng)進行針對性的優(yōu)化并將其發(fā)揮出來。因此在這三個介于Cortex A9和Cortex A15之間的設計中,我們認為Cortex A12是最為平衡的設計。只是——如之前所說,我們恐怕無法在2013年看到它了,甚至在2014年都有可能看不到最終產品的上市。因此Cortex A12是否真的實現(xiàn)了ARM的設計目標,我們也只能等到2014甚至2015年才能看到結果。
至此,我們已經把現(xiàn)在以及未來的產品、技術、架構等等方面都分析過了,以這些分析為基礎,我們已經可以預測一下2013到2014年的技術與產品格局。
由于新的Cortex A12很難在2014年之前問世,因此在2013年下半年到2014年中這段時間內,市場上的產品格局不會出現(xiàn)太大的變化。標準ARM陣營的企業(yè),例如三星,依然會選擇Cortex A15作為其旗艦產品,高通則會用Krait 400與之進行對抗,對抗的資本是超過2GHz的頻率,一如當年Pentium 4時代的英特爾。對于Cortex A15這個架構而言,如果不搭配Cortex A7(或者nVIDIA的伴核),其功耗將是不論如何也無法被手機所承受的,因此可以預見,big.LITTLE將是所有試圖整合Cortex A15的芯片制造商唯一且必須的選擇。目前有傳聞,LG和華為都在設計自己的Cortex A15 SoC,那么我們幾乎可以肯定,它們必然會采用4+4或者2+2的設計,或者插入自行設計的第五個核心。具體設計取決于設計師認為雙核Cortex A7是否夠用。
其他廠商方面,居于市場較邊緣地位的廠家,也許會試圖作出一些特立獨行的搭配,以差異化的產品參與市場競爭。例如MTK已經宣布了一款八核Cortex A7的新產品,并宣稱這顆SoC的所有八個Cortex A7核心都可以開啟,是一枚真正的八核處理器,但是對于它的性能我們也許只能報以呵呵。除此以外,也許會有某些廠商推出四核Cortex A7配備超級GPU的類似于游戲機的芯片,以迎合目前手機娛樂化的市場需求,這樣的產品也許也可以獲得不錯的實際體驗。但是總體來說所,主流手機SoC在未來一年半內出現(xiàn)超過四核的可能性并不大,而且四核Cortex A9在CPU性能方面,一直到Cortex A12之前,都可以屹立在高端主流水準。因此對于那些手持Exynos 4412的用戶,例如Galaxy S3的用戶而言,如果你希望獲得更強的CPU體驗,那么你的升級日程完全可以推到2015年。
所以在未來的一年半之內,我們不能對看到讓人眼前一亮的新產品報以太多的期待。不論是三星、nVIDIA、高通,都會以維持現(xiàn)有產品架構為主。至于蘋果,最大的可能是將A6處理器的雙核Swift架構擴充至四核,但是以IOS的系統(tǒng)設計而言,這樣的擴充有多大意義也很難說,或許硬件大戰(zhàn)的后果是所有人都無法逃避的。
而GPU部分,高通的產品在不解決能耗比問題之前,不論性能提升幅度有多巨大,都不具備太高的選擇價值。而如果你是游戲重度玩家,那么Exynos 5 Octa在Android陣營里會是一個非常好的選擇,前提是你需要有辦法把CPU部分鎖定在Cortex A7,否則Cortex A15巨大的功耗會抹殺掉你的大多數(shù)游戲體驗。至于Mali400MP4,雖然老邁,但是運行一些非優(yōu)異大作的情況下依然擁有可以接受的性能,因此除非你是基準測試愛好者,否則Mali400MP4除了較低的得分以外,并不存在太多問題。
工藝方面,我們在2013年應該是不可能看到量產的20nm工藝的,不論臺積電如何對此信誓旦旦,都不要報以太大的期待。GlobalFoundries在目前剛剛量產28nm,且產能非常有限的情況下,對于20nm的任何宣傳都可以完全無視。反而是三星的20nm存在一些變數(shù),但是希望依然不大。
由于代工廠無法像英特爾一樣靠銷售最終產品去吸收工藝的成本,因此目前所有代工廠都普遍希望在20nm節(jié)點引入EUV光刻工藝。但是EUV工藝一直以來的進度都非常緩慢,截止目前為止所實現(xiàn)的最大連續(xù)曝光功率只有40W,這個數(shù)字在2011年則是11W。在這個功率下,晶圓產出率只能達到每小時5片,而滿足量產需求的最低極限也需要60片,就正常情況而言,必須要達到100片每小時甚至更高的產量才可能獲得正收益,與之對應的EUV光源功率需求就來到了大約400W。換句話說,目前EUV光源的功率距量產目標還有10倍的距離。
從2011到2013年,光源功率的提升不到4倍,絕對功率提升不到30W,這就意味著10倍、350W的這樣的需求缺口,稱之為天塹似乎也不為過。更糟糕的是,即便EUV光源的功率解決了,EUV生態(tài)系統(tǒng)還面臨著光刻膠的反應速率過低、反應程度過低等問題,這些問題甚至比提升EUV光源功率更加棘手。因此,對于業(yè)界曾經普遍希望的在2015年實現(xiàn)EUV光刻機的量產化,筆者認為實現(xiàn)的可能基本不存在。也就是說,16/14nm工藝上,全球代工廠都將被迫采用193nm三次曝光來實現(xiàn)。
三次曝光會帶來大量的問題,從成本到產量到良品率到曝光圖案限制,無所不在。因此即便實現(xiàn),對于芯片設計也會提出特殊要求,這對于那些希望將產品放在多個代工廠生產,或者希望中途更換代工廠的Fabless廠商而言,都會是一個極大的挑戰(zhàn)。我們都知道蘋果現(xiàn)在一直在堅決執(zhí)行去三星化戰(zhàn)略,但是在與TSMC的合作還沒真正開始時,就又傳出了將在2015年重新回歸三星代工并且簽下三年長約的消息,這說明了TSMC的20nm工藝情況非常不樂觀。往好的方面估計,蘋果這樣的舉動意味著TSMC 20nm工藝的性能提升遠小于——甚至會出現(xiàn)倒退。而最惡劣的估計則是TSMC的20nm工藝量產工作甚至無法在2014年完成。不論是哪個,都意味著這家全球最大代工廠,掌握著全球70%芯片命運的企業(yè),將要陷入一段困難的時期,隨之而來的則是整個業(yè)界,至少是ARM陣營的大停滯。
歷史告訴我們,一旦競爭雙方之一陷入了停頓,就意味著另一方獲得了較好的機會。對于2013到2014年的ARM而言,這個停頓尤其顯得殘酷,因為它們的競爭對手——英特爾,實在是太可怕了。英特爾不僅在半導體技術上擁有超過業(yè)界平均5年的領先優(yōu)勢,而且在高性能處理器設計上的經驗也明顯更加豐富。更可怕的是,這樣的優(yōu)勢還在繼續(xù)擴大。
就在即將到來的2013年第三季度,英特爾將要發(fā)布全新一代基于Silvermont核心的Atom處理器,代號Baytrail。這是Atom發(fā)布6年以來英特爾第一次對Atom家族的核心架構進行大刀闊斧的改變,你甚至可以認為英特爾完全重新設計了一顆CPU,Silvermont和過去的ATOM根本沒有什么聯(lián)系。
這枚新核心擁有全亂序的流水線、雙路并發(fā)取指設計、5組指令隊列(英特爾稱之為RSV)、6個執(zhí)行器,最關鍵的是,在實現(xiàn)了所有 Cortex A15擁有的技術特性的同時,Silvermont的存取,即Load/Store單元內部也實現(xiàn)了亂序執(zhí)行,而ARM至今只在Cortex A15上實現(xiàn)了存取并發(fā)。這將會是一個巨大的性能提升。
浮點與多媒體指令集方面,英特爾不出意外會在Baytrail上至少搭配SSE3,相比vFP與NEON而言,無疑要先進許多。至于工藝,則是所有ARM制造商夢寐以求的22nm HKMG,而且英特爾已經在這個工藝節(jié)點上實現(xiàn)了finfet(3D晶體管),地球上獨此一家,再無分店。
GPU方面,英特爾會放棄PowerVR SGX系列,轉而集成自行研發(fā)的GMA HD4000架構GPU。這也是一個能耗比相當高的GPU,可以在區(qū)區(qū)8W的功耗下實現(xiàn)超過40000分的3Dmark IceStorm圖形性能,而且對于DX11擁有完整的支持。根據(jù)我們的猜測,在Baytrail產品上,英特爾會選擇集成規(guī)模為GMA HD4000一半的GPU,即8EU。這樣可以實現(xiàn)在低于Adreno 320功耗的前提下實現(xiàn)兩倍于前者的DX9性能,以及超出所有其他嵌入式GPU的DX10/11支持。
以英特爾的規(guī)劃而言,Baytrail將成為一個家族,包括面向低端PC的Baytrail-D,面向平板的Baytrail-M與面向手機的Baytrail-T,最多包含四核心,最高工作頻率2.4GHz。根據(jù)英特爾的宣傳,Silvermont的架構將能提供兩倍于任何競爭對手的性能與四倍于競爭對手的能耗比表現(xiàn),這無疑是非??植赖臄?shù)字。
那么具體的性能和功耗呢?目前為止,我們所能看到的資料是一張泄露出的Baytrail規(guī)格與功耗圖。其中面向平板的四核2.0GHz Baytrail-M,最大熱設計功耗只有7.5W。這個數(shù)字和Tegra 4等基于Cortex A15的SoC、基于高頻Krait的驍龍800基本持平,而Baytrail-M的性能要大大強過它們。
面對手機的Baytrail-T由于工藝的不同與更低的頻率,功耗將會更低,根據(jù)英特爾的規(guī)劃,其最大熱設計功耗將不超過3W。性能方面,根據(jù)目前唯一可比的測試結果,我們可以看到運行于區(qū)區(qū)1.1GHz的Baytrail芯片,Antutu測試的總分已經超過了43000分,相比之下頻率高達1.9GHz,功耗高達8W的Cortex A15旗艦Tegra 4的得分也只是剛剛突破40000。雖然分數(shù)不能絕對說明一切,但是至少這也給了我們一個一窺Baytrail實力的機會,結果自然是震撼無比。
可以看到,結合了英特爾設計技術與非常先進制造工藝的Silvermont核心,非常輕松的就獲得了數(shù)倍于Cortex A15的能耗比,這也就是說,如果不考慮其他因素,搭配了Silvermont核心Atom的智能手機,其體效值將遠遠高于搭配ARM Cortex A系列任何核心的產品。毫不夸張的說,在2014年ARM面臨困難的時候,也許基于Silvermont核心的新Atom或許是那些還想繼續(xù)提升實際性能的廠家的唯一選擇。
但是放在英特爾面前的也不是唾手可得的市場。產品的強大從來不是決定市場的唯一因素,這點在Atom上表現(xiàn)的淋漓盡致。雖然Atom擁有著強大的性能,但是我們對于英特爾在未來一年半內的定位依然是“挑戰(zhàn)者”而不是“顛覆者”。其原因主要有兩方面,源自產品的與源自非產品的。
從產品角度說,Atom與ARM基于兩種不同的ISA設計,這會導致這兩種處理器無法執(zhí)行針對硬件所編譯的同一底層代碼。而在Android環(huán)境中,絕大部分的應用程序都包含了針對底層硬件平臺所編譯的NDK代碼,這部分代碼是無法在Atom上直接執(zhí)行的。對此英特爾給出了虛擬轉換的方案,即采用類似于模擬器的方式,實時的將ARM底層代碼翻譯成x86代碼并執(zhí)行。這樣雖然解決了能否運行的問題,但是代價就是效率的極大降低,根據(jù)第三方測試,性能降低的幅度會高達70%以上,這足以抵消Silvermont相對于Cortex A系列提升的性能,導致配備Atom的Android設備實際性能不增反降。雖然英特爾一直在努力擴展自身在Android陣營的影響力,推出x86的Android系統(tǒng)分支與針對X86的NDK編譯器,但是愿意在產品中附帶x86底層庫的應用程序依然極少,而這并不是一個短期內可以解決的問題。
至于非產品方面的因素則源于英特爾的市場模式和地位。和X86不同,ARM陣營非常開放,任何公司都可以購買ARM IP,搭配其他的系統(tǒng)授權設計制造屬于自己的SoC,但是英特爾不行。因此在芯片行業(yè)角度來看,x86代表著一個公司,而ARM代表著一個集體,三星、蘋果、德州儀器、nVIDIA、高通等等等等,這些廠家已經組成了一個牢不可破的利益集團,英特爾僅僅依靠技術與性能很難將其擊破。由于ARM陣營中,技術是分散在各個公司內部的,因此各個公司都可以根據(jù)自己的利益選擇不同的產品設計,實現(xiàn)利益最大化,因此即便整體性能不如英特爾,也不影響盈利表現(xiàn)。但是一旦讓英特爾在這個行業(yè)立足,甚至占據(jù)主導地位,由于英特爾封閉的授權模式與過于強大的技術實力,最終所有廠家都不得不向英特爾采購芯片——完整的芯片,無法根據(jù)自己意志進行組合與修改的芯片,只能從英特爾提供的有限種選擇中挑一個最符合自己需求的。這樣一來,手機市場將變成另一個PC市場,一個由英特爾完全控制并且占據(jù)大部分利益的市場。其他廠家由于無法具備等同于英特爾的技術實力,而無法擁有話語權,這樣的市場格局自然是英特爾最為希望見到的,也顯然是其他ARM陣營廠商所最為恐懼的。
那么英特爾就沒有機會了么?并非一定如此,因為隨著ARM陣營開始追求最為頂尖的工藝,英特爾手中的工藝優(yōu)勢正變得越來越有重量,可以說在兩三年前,英特爾想要打入手機市場幾乎毫無勝算,但是目前卻迎來了一個機會。英特爾所需要的是一個突破口,借助終端廠家對于性能的需求,以手中所向無敵的22nm工藝作為砝碼,強迫廠商接受自己的產品,并迅速借助巨大的性能優(yōu)勢,在ARM無法給出同等級別產品的情況下,逼迫其他廠家不得不跟進。我們認為,最理想的突破口就是蘋果。
事實上,這一輪硬件軍備競賽的始作俑者正是蘋果公司,歸根到底,iPhone超越同時代競爭對手的體驗,其實是源于iPhone超越同時代競爭對手的硬件,盡管這個硬件也許不像Android陣營一樣堆徹得那么明顯。近年來,由于蘋果已經喪失了硬件上的領先優(yōu)勢,因此我們可以看到iPhone曾經領先巨大的體驗優(yōu)勢正在被Android陣營所蠶食?,F(xiàn)在,哪怕是千元級的入門產品,其操作體驗與流暢度方面都可以做到與iPhone的差距不超過常人的忍受范圍。因此iPhone所剩下的優(yōu)勢更多是消費慣性、應用優(yōu)勢和習慣,這些東西相對來說都是不夠穩(wěn)固的。所以蘋果需要更強大的硬件,超越同時代的硬件,去實現(xiàn)超越同時代的功能,也是其他競爭對手所無法提供的功能。因此英特爾的工藝就成了蘋果最希望得到的東西。
但是英特爾絕不可能僅僅安于作為一個代工廠,每年幫蘋果制造一億顆芯片——它的目標最終是整個行業(yè)。因此英特爾有可能利用手中先進工藝作為籌碼,直接或者漸近的強迫蘋果放棄自己基于ARM核心的A系列芯片,轉而接受Atom,最終以蘋果作為突破點,切入手機行業(yè)。當然,蘋果也明白一旦接受英特爾的要求,自己也就相當于被捆上了英特爾的戰(zhàn)車——未來將變得無路可退。
到目前為止,蘋果還沒有選擇與英特爾合作,大多數(shù)安卓廠商也有類似的考慮。但是當時間一年一年過去,如果TSMC真的無法拿出有競爭力的工藝,任憑英特爾利用手頭的22nm甚至未來的14nm工藝將其他同業(yè)者拋得越來越遠,又有誰能保證所有廠家都能堅持住不被英特爾先進的工藝所誘惑,投入它的懷抱呢?要知道,只要作出這樣的選擇,立刻就可以擁有超越其他競爭對手數(shù)倍的每瓦特性能,而這樣一個誘惑隨著ARM陣營性能停滯時間的積累,只會越來越大。
當然,這些都是遙遠的猜測,如果只看2013到2014年,那么我們認為,平板會是英特爾首先可能獲得突破的平臺。與手機不同,平板可以容忍稍高的功耗,因此英特爾在高性能處理器領域的設計領先優(yōu)勢會發(fā)揮出更大的作用,更重要的是,Atom是一枚x86處理器,兼容30年來所有針對PC所設計的應用(雖然不一定適合平板操作),而且Baytrail-M從最樂觀的角度來看,可能擁有等同于Core 2 Duo時代處理器的性能,這也就意味著Baytrail-M可以滿足幾乎90%的日常PC應用需求,這遠遠不是當年上網(wǎng)本可以相提并論的。因此從這個角度而言,最早在2013年底,就可能出現(xiàn)10英寸、9毫米、600g、續(xù)航10小時、性能達到5年前高端筆記本水平的平板電腦,可以運行幾乎所有的Windows程序。對于本身用途就相對匱乏的Android平板而言,這不會是一個好消息。而平板是ARM陣營試圖將ARM處理器帶入更高一級應用平臺的跳板,在這個平臺上遭遇如此強大的競爭對手,對于ARM而言也不會是一個好消息。
要說這部分是結語,其實并不準確,因為我們的結論基本已經在前文中說完了。最后我們能給出的,是對各位未來幾年的消費選擇的一些建議,權當參考吧。
首先是手機。手機的處理器的實際性能在未來一到兩年內很難看到實質性的進步,但是畢竟手機是一個有機的整體,處理器并非構成消費訴求的唯一。屏幕、攝像頭、設計、材質,甚至是任何一個小小的功能改進,都有可能讓你產生購買欲望。
因此,我們的建議是:如果你遇到一臺手機,第一眼就覺得它是你的真愛,那就不要管它是用什么CPU了,果斷入手就可以了。但如果你希望得到更強的性能,那么我們的建議是,暫時打消升級的念頭,等到2015年再靜觀其變。
事實上不僅是CPU,在屏幕、通信等等方面,目前的手機也已經走到了體驗或者技術的極限,未來幾年內出現(xiàn)重大突破的可能性都不大。所以除非你是硬件發(fā)燒友,追求最新最好,否則我們也許可以相信,經過五年的馬拉松,我們終于有足夠的理由停下來休息一會兒了。
另一方面,平板電腦會成為未來一段時間內競爭最激烈的領域。因為英特爾Baytrail的加入,標準版Windows 8.1與Atom搭配的平板總算與Android平板和iPad有了正面競爭的能力。屆時的選擇會千變萬化,我們完全可以坐等廠商推出的新產品,從中選擇最適合自己的。順帶一提,由于ARM芯片的困境,Surface RT已經不再具備產品意義上的價值,這點對于微軟而言也許會顯得比較悲劇。
至于具體的產品,我們可以很負責的說,從現(xiàn)在開始,所有的跑分天王都將淪為“只能跑分的天王”,不論廠家多么宣傳我的產品具備多高的性能,多大的提升,只要你還是一個理性的消費者,都應該選擇理性對待。
寫到這里,筆者的心情也很復雜,甚至不知道應該如何結束這篇文章。那么就讓我們重復一下兩年前的那段話,作為對這一個系列的收尾吧:“手機行業(yè)這列火車,正在廠家與消費者的共同催促下,向著近在咫尺的懸崖加速狂奔,我們大家都是罪犯?!薄?
關注我們
