超級(jí)計(jì)算正在成為全球能耗大戶,他們能否跨越零碳排放界限?
劃重點(diǎn)
- 1包括超級(jí)計(jì)算機(jī)在內(nèi)的高性能計(jì)算正在成為一個(gè)能源消耗者。超級(jí)計(jì)算的數(shù)據(jù)中心耗電量占全球總耗電量的1.5%至2%,大致相當(dāng)于整個(gè)英國(guó)的耗電量。
- 2現(xiàn)代計(jì)算機(jī)可計(jì)算約10萬(wàn)億次,耗電量與第二次世界大戰(zhàn)后一次計(jì)算的耗電量相當(dāng)。
- 3芬蘭超算LUMI被放置在亞北極圈內(nèi),其中一個(gè)原因就是可以利用那里的清涼氣體來(lái)節(jié)省冷卻所需的電能。
- 4隨著各國(guó)政府承諾減少溫室氣體排放,計(jì)算機(jī)行業(yè)試圖找到一種方法,可以用更少的資源做更多的事情,提高產(chǎn)品的能效。AMD希望在2025年將其最強(qiáng)大的芯片效率提高到2020年的30倍。
基莫·科斯基博士基莫·科斯基博士在芬蘭IT科學(xué)中心負(fù)責(zé)(Kimmo Koski)的眼中,LUMI(芬蘭語(yǔ)言中的意思是雪)是歐洲最強(qiáng)大的超級(jí)計(jì)算機(jī),位于卡賈尼鎮(zhèn),位于芬蘭北極圈以南250公里。說(shuō)到這個(gè)超級(jí)計(jì)算,科斯基說(shuō):“你會(huì)先注意到它很安靜?!?/p>

去年,LUMI被投入使用,用于許多領(lǐng)域,如氣候建模和尋找藥物。它有成千上萬(wàn)個(gè)單獨(dú)的處理器,每秒可以執(zhí)行多達(dá)429千萬(wàn)億次的計(jì)算操作。這使得它成為世界上第三快的超級(jí)計(jì)算機(jī)。它通過(guò)水力發(fā)電增加動(dòng)力,其廢熱被用來(lái)幫助卡賈尼鎮(zhèn)居民取暖,其二氧化碳排放幾乎為零。
LUMI向我們展示了高性能計(jì)算。(HPC)未來(lái),無(wú)論是在專用超級(jí)計(jì)算機(jī)上,還是在大多數(shù)因特網(wǎng)云基礎(chǔ)設(shè)施上運(yùn)行。在過(guò)去的十年里,在各種模擬技術(shù)的推動(dòng)下,如機(jī)器學(xué)習(xí)、基因組測(cè)序、股市、核彈研發(fā)、天氣預(yù)報(bào)等。,全球?qū)Ω咝阅苡?jì)算的需求急劇增加,這種需求很可能繼續(xù)上升。同時(shí),訓(xùn)練尖端人工智能模型所需的計(jì)算能力每五個(gè)月就會(huì)翻一番。
但是,所有這些研究和開(kāi)發(fā)都對(duì)環(huán)境產(chǎn)生了影響。高性能計(jì)算(更廣泛地說(shuō)是全部計(jì)算)正在成為能源消費(fèi)者。據(jù)國(guó)際能源機(jī)構(gòu)估計(jì),數(shù)據(jù)中心的功耗占全球總功耗的1.5%至2%,大致相當(dāng)于整個(gè)英國(guó)的功耗。預(yù)計(jì)到2030年,這個(gè)比例將上升到4%。當(dāng)政府承諾減少溫室氣體排放時(shí),計(jì)算機(jī)行業(yè)正試圖找到一種方法,使用更少的資源來(lái)做更多的事情,提高產(chǎn)品的能效。這項(xiàng)工作發(fā)生在三個(gè)層面:減少單個(gè)微芯片的功耗,在計(jì)算機(jī)上安裝低功耗芯片,在數(shù)據(jù)中心采用低功耗計(jì)算機(jī)。
讓我們從微芯片本身開(kāi)始。在過(guò)去的80年里,數(shù)字計(jì)算機(jī)的效率有了很大的提高。現(xiàn)代計(jì)算機(jī)可以計(jì)算10萬(wàn)億次左右,消耗的能量相當(dāng)于第二次世界大戰(zhàn)后計(jì)算的用電量。這種巨大的技術(shù)進(jìn)步在一定程度上得益于行業(yè)對(duì)摩爾定律的堅(jiān)持。摩爾定律是指集成電路中可容納的部件數(shù)量每隔幾年就會(huì)翻倍。
計(jì)算機(jī)越來(lái)越節(jié)能
在過(guò)去的幾十年里,摩爾定律的另一個(gè)積極影響是,隨著電路的縮小,它們也變得更加節(jié)能。這一效應(yīng)被稱為登納德縮放定律(Dennard scaling),羅伯特·登納德,當(dāng)時(shí)在IBM工作的科學(xué)家。(Robert Dennard)這個(gè)名字命名,他在1974年寫了一篇關(guān)于這個(gè)問(wèn)題的論文。但是,在2005年左右,超微小組件的物理特性表明這種關(guān)系已經(jīng)開(kāi)始破裂。伴隨著部件的縮小,計(jì)算機(jī)的效率仍在不斷提高,但是它的速度已經(jīng)大大放緩。
這樣就迫使芯片制造商更加努力地追求過(guò)去免費(fèi)獲得的好處。由美國(guó)芯片設(shè)計(jì)公司AMD制造的LUMICPU是一種用于運(yùn)行過(guò)程和協(xié)調(diào)機(jī)器的通用芯片。AMD和其競(jìng)爭(zhēng)對(duì)手英特爾的CPU除了超級(jí)計(jì)算機(jī)之外,還增加了數(shù)據(jù)中心的動(dòng)力,使互聯(lián)網(wǎng)能夠運(yùn)行。塞繆爾·納夫齊格,AMD產(chǎn)品技術(shù)架構(gòu)師(Samuel Naffziger)據(jù)說(shuō),2010年,AMD將能效提升“放在首位”。
現(xiàn)在,AMD芯片采用了一系列技術(shù),有助于降低功耗。它們覆蓋著傳感器,根據(jù)分配給它們的任務(wù),對(duì)發(fā)送到電路各個(gè)部分的功率進(jìn)行監(jiān)控和最大限度的降低。其它改進(jìn)集中在保證芯片在任何給定時(shí)間都能盡可能多地做有用的工作上,因?yàn)榭臻e電路存粹是在浪費(fèi)電力。在2025年,AMD希望將更聰明的設(shè)計(jì)方法與較小的部件相結(jié)合,將其最強(qiáng)大的芯片效率提高到2020年的30倍。
另外一種選擇是將工作從通用CPU轉(zhuǎn)移到專門為更小范圍的數(shù)學(xué)任務(wù)設(shè)計(jì)的專用芯片上。最為著名的是“圖形控制部件”,簡(jiǎn)稱GPU。GPU最初的開(kāi)發(fā)目的是為電子游戲制作更時(shí)尚的圖像,但是事實(shí)證明,現(xiàn)在它在許多任務(wù)上都很出色。這類任務(wù)可以轉(zhuǎn)換成小塊,每一小塊都可以同時(shí)處理。類似的專用芯片越來(lái)越多地處理聯(lián)網(wǎng)等任務(wù),這些任務(wù)以前通常由CPU處理。
該系統(tǒng)級(jí)別的調(diào)整是提高效率的第二個(gè)有效方案。賈斯汀·霍塔德負(fù)責(zé)惠普企業(yè)的高性能計(jì)算(Justin Hotard)他說(shuō):“當(dāng)你使用數(shù)千個(gè)CPU和GPU時(shí),它們的連接方式會(huì)影響超級(jí)計(jì)算機(jī)的能效。
確切地說(shuō),如何最好地連接所有芯片仍然是一個(gè)引人注目的研究領(lǐng)域。向計(jì)算機(jī)其他地方的另一個(gè)芯片發(fā)送信號(hào)需要消耗大量的能量。因此,我們的目標(biāo)是盡可能減少這種情況發(fā)生的頻率,盡可能減少信號(hào)傳播的距離。
惠普更喜歡一種叫做“蜻蜓拓?fù)洹钡慕Y(jié)構(gòu),它是一種雙層系統(tǒng)。這類結(jié)構(gòu)中,芯片組以簇的形式相互連接,而這些簇則依次相互連接。該系統(tǒng)是模塊化的,通過(guò)簡(jiǎn)單的添加新節(jié)點(diǎn)很容易擴(kuò)展。巴利亞多利德大學(xué)計(jì)算機(jī)科學(xué)家弗朗西斯科·安杜賈爾今年2月(Francisco Andújar)同事們發(fā)表了一篇論文,經(jīng)過(guò)大量的數(shù)學(xué)分析,他們發(fā)現(xiàn)蜻蜓的結(jié)構(gòu)接近于高效超級(jí)計(jì)算機(jī)的理想設(shè)計(jì)。
而且,提高能效不需要以犧牲性能為代價(jià)。Top500.org網(wǎng)站根據(jù)速度和效率對(duì)超級(jí)計(jì)算機(jī)進(jìn)行排名,今年6月發(fā)布的最新報(bào)告將LUMI列為世界上效率第七、速度第三的超級(jí)計(jì)算機(jī)。超算Frontier安裝在田納西州橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室,是目前世界上最快的計(jì)算機(jī),大約是LUMI的四倍。但是,F(xiàn)rontier在能效方面排名第六。
數(shù)據(jù)中心是最后一個(gè)可以改進(jìn)的領(lǐng)域。在這個(gè)高科技領(lǐng)域,超級(jí)計(jì)算機(jī)和為互聯(lián)網(wǎng)增加動(dòng)力的普通服務(wù)器都在這里運(yùn)行,計(jì)算會(huì)產(chǎn)生大量的熱量。雖然新發(fā)現(xiàn)的重點(diǎn)是效率,但現(xiàn)代CPU或GPU可以在全速運(yùn)行時(shí)產(chǎn)生500瓦或更多的熱量。數(shù)據(jù)中心有成千上萬(wàn)的CPU或GPU,這意味著它們散發(fā)出驚人的熱量。
保持這些芯片的清涼也需要消耗能量。電源利用效率是衡量數(shù)據(jù)中心效率的標(biāo)準(zhǔn)(PUE),也就是說(shuō),數(shù)據(jù)中心的總功耗與用來(lái)完成有用工作的電量之間的比例。基于UptimeIT顧問(wèn)公司 一個(gè)典型的數(shù)據(jù)中心PUE為1.58,Institute數(shù)據(jù)。這意味著該中心大約有三分之二的電力用于運(yùn)行計(jì)算機(jī),而三分之一用于運(yùn)行數(shù)據(jù)中心本身,大部分電力被制冷系統(tǒng)消耗。
跨越凈零碳排放界線的高性能計(jì)算
巧妙的設(shè)計(jì)可以大大降低這個(gè)數(shù)字。大多數(shù)現(xiàn)有的數(shù)據(jù)中心依賴于蒸發(fā)和冷卻。液體冷卻帶來(lái)了更好的熱傳遞,但這需要額外的工程努力。一些創(chuàng)業(yè)公司甚至將電路板完全浸入專門設(shè)計(jì)的液體浴缸中。Frontier的PUE已經(jīng)降到了1.03,因?yàn)樗褂昧艘后w冷卻。
之所以在北極圈周圍部署LUMI,是因?yàn)樗梢岳脕啽睒O的清涼氣體。PUE級(jí)別僅為1.02,同一設(shè)施內(nèi)相鄰的計(jì)算機(jī)采用這種免費(fèi)冷卻機(jī)制。這意味著98%的電能被轉(zhuǎn)化為有用的數(shù)學(xué)應(yīng)用??扑够┦空f(shuō):“這接近可能的極限。”
即使是最好的商業(yè)數(shù)據(jù)中心也無(wú)法實(shí)現(xiàn)這些數(shù)字。例如,谷歌數(shù)據(jù)中心的平均PUE值為1.1。Uptime數(shù)據(jù)中心標(biāo)準(zhǔn)組織和第三方認(rèn)證機(jī)構(gòu) 根據(jù)6月份Institute發(fā)布的最新數(shù)據(jù),經(jīng)過(guò)幾年的穩(wěn)步改進(jìn),自2018年以來(lái),全球數(shù)據(jù)中心的效率一直沒(méi)有提高。但是它的主要原因是經(jīng)濟(jì)學(xué),而不是計(jì)算機(jī)科學(xué)。伴隨著對(duì)計(jì)算的需求急劇增加,企業(yè)使舊的、低效的基礎(chǔ)設(shè)施運(yùn)行更長(zhǎng)時(shí)間更有意義。
這些政府正在考慮美國(guó)、英國(guó)和歐盟等國(guó)家制定的碳減排目標(biāo),以迫使數(shù)據(jù)中心變得更加高效。一項(xiàng)新的德國(guó)法律規(guī)定,到2027年,數(shù)據(jù)中心的最低PUE將降至1.5,到2030年為1.3。“我們希望LUMI能證明高性能計(jì)算能跨越凈零碳排放的邊界,科斯基博士說(shuō)。"那些想要獲得相關(guān)經(jīng)驗(yàn)的人,最好親自去芬蘭學(xué)習(xí)。
本文來(lái)自微信微信官方賬號(hào)“騰訊科技”,作者:金鹿,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




