天河一號A稱霸!超級計算未來屬于GPU
記者:像這種CPU+GPU異構(gòu)計算架構(gòu)的超級計算機(jī),使用了很多顆GPU,同時也使用了更多的多核心CPU,他們都擁有龐大的運(yùn)算能力,那么在其最終實(shí)際運(yùn)算量當(dāng)中,大概有百分之多少是GPU貢獻(xiàn)的,有多少是CPU貢獻(xiàn)的?
Andy Keane:不同的超級計算機(jī),其互聯(lián)網(wǎng)絡(luò)和結(jié)構(gòu)有所不同,但大概來看的話,CPU運(yùn)算量占20%,GPU占到80%。
記者:那就是說,GPU的運(yùn)算量要比CPU大很多,以后的比例會繼續(xù)提高嗎?是不是意味著以后不需要太強(qiáng)的CPU,只需要能夠管理的GPU就可以了?
Andy Keane:在系統(tǒng)的設(shè)計中,實(shí)際上是一個設(shè)計平衡的問題,一定要在各個環(huán)節(jié)里達(dá)到平衡,比如說你的GPU速度越快,就意味著你需要快速的CPU的速度,還有網(wǎng)絡(luò)的速度以及內(nèi)存的大小,是需要達(dá)到一個平衡的。也就是說更快的GPU還是需要更快的CPU支持。
最新的中國超級計算機(jī)排行榜單
記者:我們今天看到中國的TOP100里面前三名都采用了Tesla的GPU,但是我們發(fā)現(xiàn)效率有很大的不同,第一名(天河一號A)最高,達(dá)到53%,第三名(中科院工程研究所)才達(dá)到18.5%,這個第三名也用到了GPU加速的互聯(lián)技術(shù)。從GPU采用角度來說,NVIDIA公司對混合計算的效率有什么看法,或者說對于未來采用混合技術(shù)的開發(fā)人員有什么忠告,采用什么樣的架構(gòu)來保證混合計算體系架構(gòu)的一個更高效率?
Andy Keane:系統(tǒng)的實(shí)際運(yùn)行效率是由它所要運(yùn)行的應(yīng)用所決定的,你剛才提到的,效率比較低的第三套系統(tǒng),它大多的工作就是處理分子動力學(xué)和離子仿真。它的應(yīng)用就導(dǎo)致你需要對它的架構(gòu)進(jìn)行一些特殊的設(shè)計。新的天河一號A它主要面臨的應(yīng)用,是希望能夠廣泛的應(yīng)用,我們也需要進(jìn)行不同系統(tǒng)的設(shè)計。所有超性能計算機(jī)會用于不同的終端,只是現(xiàn)在比較普遍的衡量他們性能的標(biāo)準(zhǔn)都是Linpack值。
謝強(qiáng):我補(bǔ)充一下,高性能計算機(jī)設(shè)計體制結(jié)構(gòu)的兩種方式:一種是有應(yīng)用主導(dǎo),然后設(shè)計計算機(jī);第二種是我要設(shè)計一種通用的高性能計算機(jī)。所以大家設(shè)計計算體系結(jié)構(gòu)的思想是不一樣的。比如中科院的方式,他們是先有了應(yīng)用,先有了離子仿真和分子動力學(xué)的應(yīng)用,完全是按照他們的應(yīng)用,他們的應(yīng)用在上面跑的效率最好。但是非常不幸的是,今天世界排名只用Linpack的測試軟件,中科院的系統(tǒng)設(shè)計不是為了跑Linpack設(shè)計的機(jī)器,他們是為了自己的分子動力學(xué)和離子仿真設(shè)計的機(jī)器,這樣就導(dǎo)致用同一個測試程序測試的時候,結(jié)果會有比較大的差異。但是天河這臺機(jī)器是為了不同的應(yīng)用,它的設(shè)計更通用一些。
記者:看起來Tesla的效率是挺高的,但與純CPU系統(tǒng)的超級計算機(jī)70%-80%的效率相比還是有一定的差距。
謝強(qiáng):他們自己(中科院工程研究所)的應(yīng)用效率是非常高的,可能能達(dá)到70%、80%,甚至80%、90%,非常高的效率。為什么會有這樣的原因呢?分子動力學(xué)和他們那種計算模式,在不同的節(jié)點(diǎn)之間做計算的時候沒有節(jié)點(diǎn)之間的通訊,而Linpack的程序節(jié)點(diǎn)之間是有通訊的。應(yīng)用不一樣,是造成這個問題最主要的原因。但是目前大家沒有更好的衡量高性能計算的方式,Linpack已經(jīng)是不錯的了,大家默認(rèn)Linpack測試了,不斷你是什么結(jié)構(gòu)設(shè)計的機(jī)器,都用這個來測試,這樣大家都有一個排名了。
記者:我們知道“天河一號”去年發(fā)布的時候,它是中國TOP100的第一名,那時候他用的是AMD的HD4870X2,可能很多人會有疑問,到今年怎么都換成Tesla,我們也知道一些原因,想請NVIDIA具體給我們闡述一下,“天河一號A”基于什么樣的考慮讓他們最后把AMD的4870X2換成了Tesla?
Andy Keane:最主要的原因就是軟件,NVIDIA公司提供了一個范圍非常廣的編程環(huán)境,使開發(fā)人員的能力得到很大的加強(qiáng),所以說,主要還是提供了非常良好的編程環(huán)境。人們一般情況下會更多的關(guān)注語言,就系統(tǒng)而言真正關(guān)注的有兩類人:一個是應(yīng)用開發(fā)人員;另一類是對IT系統(tǒng)進(jìn)行維護(hù)的人員。我們支持的ECC,首先它可以進(jìn)行很好的SMI的管理,另外它也有一些軟件工具,幫我們更好的管理集群。一方面可以進(jìn)行很好的應(yīng)用開發(fā),另一方面還可以管理集群,所以這兩者加在一起才使得系統(tǒng)表現(xiàn)的如此出色。一方面你要考慮這個系統(tǒng)是誰建造的,另外一方面還要考慮,是誰讓建好的系統(tǒng)能夠得以應(yīng)用,這兩個因素缺一不可。
像“天河一號A”里面用了7000多個GPU,放到一個系統(tǒng)中,除了開發(fā)應(yīng)用技術(shù)之外,還有管理、維護(hù)的大量工作,而我們正好有這樣管理、維護(hù)的技術(shù),可以幫他們更好的管理。
關(guān)注我們
