交付性能超中科院預期3倍,聯(lián)想HPC是如何做到的?

摘要:對于現(xiàn)代科技來說,計算力的極限決定著人類對世界認知的邊界,所以HPC(高性能計算集群)自然而然成了各國科技競爭的戰(zhàn)略制高點。如同在巔峰之上前行,每進一步都要付出更多體能,在摩爾定律依然失效的今天,HP

對于現(xiàn)代科技來說,計算力的極限決定著人類對世界認知的邊界,所以HPC(高性能計算集群)自然而然成了各國科技競爭的戰(zhàn)略制高點。如同在巔峰之上前行,每進一步都要付出更多體能,在摩爾定律依然失效的今天,HPC在不斷提升性能的同時還要兼顧功耗,更是加大了迭代升級的技術難度。

在HPC領域卻發(fā)生了一件新鮮事,中國科學院數(shù)學與系統(tǒng)科學研究院原本計劃重建的峰值性能超過350Tflops即可,但聯(lián)想HPC在預算范圍內(nèi),最終交付計算峰值卻達到了1081Tflops,交付性能達到了用戶預期的三倍還多,這其中有什么奧秘和訣竅?帶著這些問題,《老尚看科技》采訪了聯(lián)想HPC業(yè)務部門決策者和技術專家。

聯(lián)想HPC為何能夠超出客戶性能預期3倍?

底層基礎研究是現(xiàn)代科學發(fā)展的根基所在,而數(shù)學被譽為自然科學之母。中國科學院數(shù)學與系統(tǒng)科學研究院成于1998年,作為中國數(shù)學和系統(tǒng)科學研究最頂尖的研究機構,下轄數(shù)學、應用數(shù)學、系統(tǒng)科學、計算數(shù)學與科學工程計算四大研究所,以及9個國家重點實驗室和十余個研究中心,自成立以來成果豐碩、享譽全球。隨著科學技術高速發(fā)展,中國科學院數(shù)學與系統(tǒng)科學研究院對于用超算來進行科研驗證和前沿探索,都抱有很高的期待,所以下定決心要翻新落伍的HPC系統(tǒng)。

但跟很多傳統(tǒng)院校和科研機構一樣,中國科學院數(shù)學與系統(tǒng)科學研究院要更新HPC系統(tǒng),面臨著老機房面積局促、地板稱重有限、供電功率受限等現(xiàn)實因素的困擾,所以中國科學院數(shù)學與系統(tǒng)科學研究院向HPC供應商提出了預期的目標:希望能夠提供的計算節(jié)點數(shù)超過350Tfopls,并且新HPC系統(tǒng)的整體功耗不超過220KW。

一般而言,HPC從立項、審批、招標,再到部署、驗收、投入使用,動輒要數(shù)個月甚至更長時間,而英特爾CPU處理器的更迭周期現(xiàn)在越來越短,這就讓很多HPC項目存在剛開始硬件建設就已經(jīng)落后的行業(yè)難題。

但聯(lián)想最終交付給中國科學院數(shù)學與系統(tǒng)科學研究院的HPC新系統(tǒng)卻打破了業(yè)界常規(guī),在符合預算的前提下,聯(lián)想為中國科學院數(shù)學與系統(tǒng)科學研究院改造的全新HPC系統(tǒng)峰值計算性能達到了1081 Tflops!

據(jù)聯(lián)想首席科學家祝明發(fā)介紹,聯(lián)想HPC之所以能實現(xiàn)客戶計算峰值預期三倍,主要是基于如下原因:

第一,聯(lián)想從項目規(guī)劃設計之初,就將英特爾處理器更新周期考慮在內(nèi),聯(lián)想與英特爾積極合作,為中國科學院數(shù)學與系統(tǒng)科學研究院在項目早期就提前測試了當時未正式發(fā)布的新一代英特爾至強可擴展處理器(Xeon SP,即開發(fā)代號為Skylake-SP的新處理器)及新一代Purley平臺,后者相比至強E5-2600 V4處理器顯著的性能提升,也為超出客戶預期3倍的計算峰值打下了堅實基礎。另外,在HPC系統(tǒng)中規(guī)格超前的100Gbps EDR InfiniBand網(wǎng)絡,也為新HPC系統(tǒng)的性能提升提供了強力支持。

第二,因地制宜,針對老機房空間狹小、承重受限的客觀條件,聯(lián)想在拆除原有機房的HPC系統(tǒng)之后,重新設計了機房的空間布局、承重、空調(diào)和散熱制冷,同時,機柜采用專門的承重架專門加固,確保機房機柜的穩(wěn)定可靠安放——在重新設計機房之后,聯(lián)想為這一機房裝入了多出一倍的機柜數(shù)量:新機房放入了408個HPC計算節(jié)點,1個x3650 M5管理節(jié)點,1個x3650 M5數(shù)據(jù)導入節(jié)點,1個胖節(jié)點x3850 X6,5臺GPU節(jié)點,4個KNL計算節(jié)點,8個x3650 M5 大數(shù)據(jù)節(jié)點,15臺交換機,1套360TB存儲系統(tǒng)以及LiCO管理平臺。更高的集成密度,也是性能超預期的一個重要因素。

第三,為了解決部署周期長,可能會帶來的性能落伍風險,聯(lián)想在這個HPC項目中采用了HPC系統(tǒng)整機柜交付的方式,在工廠進行服務器、存儲、網(wǎng)絡等設備的上架、預裝,直接將機柜推進機房,節(jié)省了在機房內(nèi)開箱、上架服務器、存儲等設備的時間和空間。短周期也為性能領先提供了堅實的保證。

超算需求的多樣化,要求HPC也要與時俱進

HPC之前被廣泛應用于能源、氣象、醫(yī)療、航天等領域,但隨著人工智能、大數(shù)據(jù)時代的來臨,用戶對超算的需求也在變得越來越多樣性,很多用戶希望超算能夠在深度學習等領域中發(fā)揮更大的作用,以便于他們借助超算超強的計算力來做算法訓練或者科研驗證。

面對客戶對超算越來越多樣和多變的需求,HPC廠商需要拿出切實可行的解決方案。在中國科學院數(shù)學與系統(tǒng)科學研究院新HPC項目中,聯(lián)想除了常規(guī)的計算節(jié)點之外,還在這套新HPC系統(tǒng)中增加了NVIDIA GPU、英特爾Xeon Phi在內(nèi)的異構計算平臺,以及基于聯(lián)想LEAP的大數(shù)據(jù)分析測試平臺(8個x3650 M5 大數(shù)據(jù)節(jié)點)、LiCO集群調(diào)度和管理系統(tǒng)。

聯(lián)想HPC&AI資深架構師郝常杰表示,當有了透明機制的LiCO系統(tǒng)之后,科研用戶不需要在精通本專業(yè)之外,還要花大塊時間來研究如何使用異構計算資源,LiCO平臺就像一個資源調(diào)配中心,你需要什么類型的計算資源,只需要向系統(tǒng)提出申請即可。以往科研用戶在用HPC做運算時,如果在預計時間內(nèi)沒能完成,科研人員時常要面臨是繼續(xù)無限期的等待,還是前功盡棄重新來過,但有了LiCO系統(tǒng)之后,科研人員能夠?qū)PC的進程進行更精細的監(jiān)控,哪個環(huán)節(jié)在運算時出了問題會一目了然,這大大提升了HPC的實際運行效率。

受到傳輸材料和芯片制造工藝限制,摩爾定律已經(jīng)逐步失效,所以HPC進一步提升性能、降低功耗,需要更多的技術創(chuàng)新。在中國科學院數(shù)學與系統(tǒng)科學研究院新HPC項目初期,聯(lián)想提供的基于“飛虎”系統(tǒng)的HPC解決方案,可以將數(shù)據(jù)中心機房的PUE值降低至1.2左右,這遠遠低于當前國內(nèi)數(shù)據(jù)中心普遍的PUE值2.0-2.2的水平。這種技術上的領先,是用戶之所以選擇和信任聯(lián)想HPC的根本原因之一。

中國從超算大國,正在走向超算強國

HPC要想物盡其用,硬件、軟件、應用、生態(tài)必須形成有效的協(xié)同。中國以往在超算硬件上取得了長足進步,銀河2A、神威天湖之光等HPC集群在全球TOP500上也先后奪冠。聯(lián)想為代表的中國超算力量,在世界HPC市場份額中也不斷攀升,聯(lián)想曾獲得過HPC廠商全球第二的殊榮。但與歐美等超算強國相比,中國在HPC應用和生態(tài)層面還需要不斷補強,才能形成更強的綜合競爭力。

隨著大數(shù)據(jù)、人工智能等技術高速發(fā)展,人們希望超算能夠滿足更多樣和多變的計算需求,這也為中國超算彎道超車提供了寶貴的機遇。從中國科學院數(shù)學與系統(tǒng)科學研究院新HPC項目中,我們看到了聯(lián)想由超算硬件提供商,已經(jīng)逐步演進為智能超算平臺提供者和智能超算生態(tài)建設者。

祝明發(fā)在采訪時表示,超算是一個基于信任的業(yè)務,未來拼的是產(chǎn)品、技術和服務硬實力,靠打價格戰(zhàn)或者營銷術是無法長期在超算領域立足的。聯(lián)想希望能夠聯(lián)合更多中國超算力量,共建智能超算健康生態(tài),為中國各行各業(yè)的創(chuàng)新者,提供了綠色、經(jīng)濟、高效且快速發(fā)展的計算能力和超算服務,讓中國從超算大國真正成為超算強國,讓超算成為中國創(chuàng)新和中國智造的技術基石。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2017-10-21
交付性能超中科院預期3倍,聯(lián)想HPC是如何做到的?
摘要:對于現(xiàn)代科技來說,計算力的極限決定著人類對世界認知的邊界,所以HPC(高性能計算集群)自然而然成了各國科技競爭的戰(zhàn)略制高點。

長按掃碼 閱讀全文