近年來,人工智能領(lǐng)域迎來爆發(fā)式增長(zhǎng),大模型技術(shù)成為推動(dòng)行業(yè)變革的核心引擎,大模型能力的躍升不斷刷新人類對(duì)AI潛力的認(rèn)知。
當(dāng)OpenAI的GPT-4訓(xùn)練需消耗數(shù)數(shù)萬張GPU卡時(shí),中國(guó)AI企業(yè)DeepSeek卻以“千卡級(jí)”算力訓(xùn)練出性能對(duì)標(biāo)國(guó)際巨頭的模型,這一反差揭示了行業(yè)的關(guān)鍵轉(zhuǎn)折點(diǎn)——從單純追求硬件性能的“軍備競(jìng)賽”,轉(zhuǎn)向通過工程創(chuàng)新實(shí)現(xiàn)算力效率的顛覆性提升。
DeepSeek在開源周里發(fā)布的大規(guī)模跨節(jié)點(diǎn)專家并行(大EP),更是揭開推理服務(wù)提高吞吐、降低時(shí)延的技術(shù)秘訣,掀起大模型推理系統(tǒng)優(yōu)化的熱潮。
以DeepSeek為代表的大模型創(chuàng)新為算力基礎(chǔ)設(shè)施也帶來新的技術(shù)趨勢(shì):大模型向大量小專家方向演進(jìn),性能提升、成本降低開始快速普及;另一方面,少量大專家模式走向高性能摸高,大量小專家向創(chuàng)新普及,未來兩種方案并存。
同時(shí),DeepSeek采用的大規(guī)模跨節(jié)點(diǎn)專家并行,實(shí)現(xiàn)性能、吞吐量和并發(fā)用戶數(shù)量的顯著提升,成本大幅度降低,也為大模型推理系統(tǒng)采用大規(guī)??绻?jié)點(diǎn)專家并行方案提供了可行性。
大規(guī)模專家并行EP,就是將專家Expert分布到更多的卡上,可以減少每張卡權(quán)重加載的時(shí)延,減少權(quán)重的顯存占用,能夠顯著的提升單卡并行的路數(shù)(batch size)。每個(gè)專家計(jì)算路數(shù)的提升可以提高矩陣乘的效率,從而實(shí)現(xiàn)更大的吞吐和更低的時(shí)延。同時(shí)大規(guī)模專家并行EP,更多專家也帶來負(fù)載均衡、卡間通信的挑戰(zhàn)。
盡管大規(guī)模跨節(jié)點(diǎn)專家并行集群推理能夠降低成本,但在實(shí)際應(yīng)用中仍面臨專家動(dòng)態(tài)均衡與通信時(shí)延等挑戰(zhàn)。
昇騰大EP解決方案憑借多項(xiàng)關(guān)鍵技術(shù)有效解決了以上挑戰(zhàn),針對(duì)專家負(fù)載不均的難題,通過自動(dòng)尋優(yōu)、自動(dòng)配比、自動(dòng)預(yù)測(cè)、自動(dòng)降解,實(shí)現(xiàn)備份節(jié)點(diǎn)和副本專家靈活可擴(kuò)展、高可用和極致均衡。
針對(duì)All-to-All通信優(yōu)化的難題,昇騰大EP解決方案提出了雙流/多維混合并行,其中Prefill micro-batch雙流并行,可以實(shí)現(xiàn)計(jì)算和通信的相互掩蓋;MoE expert專家雙流并行,實(shí)現(xiàn)兩條數(shù)據(jù)流Stream的并行計(jì)算;Weight權(quán)重預(yù)取雙流并行,可以把訪存和通信并行起來,降低權(quán)重加載時(shí)間,提升效率。
此外,昇騰MLAPO融合算子也是關(guān)鍵技術(shù)之一,降低計(jì)算耗時(shí)70%。我們知道,MLA預(yù)處理階段,傳統(tǒng)方案多算子串行,頻繁占用內(nèi)存、通信等資源,整體計(jì)算耗時(shí)占比高。而昇騰MLAPO融合算子,將小算子融合成單一算子,Vector和Cube計(jì)算并行處理,減少開銷降低計(jì)算耗時(shí)。
在昇騰大EP推動(dòng)技術(shù)普惠的同時(shí),英偉達(dá)針對(duì)中國(guó)市場(chǎng)推出的H20芯片卻顯露出明顯短板。
H20作為英偉達(dá)針對(duì)中國(guó)市場(chǎng)發(fā)布的AI芯片,是用于大模型訓(xùn)練普遍采用的H100“低配版”,其AI算力僅為H100的15%,在推理方面,受性能的制約,H20只能在特定模型架構(gòu),展現(xiàn)出一定的效能。像DeepSeek采用的是混合專家(MoE)架構(gòu),在高batch size場(chǎng)景下,H20極易陷入性能瓶頸,導(dǎo)致時(shí)延顯著增加,從而無法充分發(fā)揮DeepSeek專家并行機(jī)制所具有的高吞吐量?jī)?yōu)勢(shì)。因此,在大規(guī)模高并發(fā)的訓(xùn)推場(chǎng)景,H20難以滿足實(shí)際應(yīng)用需求。
當(dāng)DeepSeek證明“小算力亦可挑戰(zhàn)巨頭”,昇騰大EP則進(jìn)一步回答:如何讓每一焦耳電力、每一美元投入,釋放最大AI價(jià)值。這場(chǎng)效率革命的意義遠(yuǎn)超技術(shù)參數(shù)之爭(zhēng)——它標(biāo)志著AI競(jìng)爭(zhēng)從“硬件堆疊”轉(zhuǎn)向“工程創(chuàng)新”,最終邁向產(chǎn)業(yè)普惠。(御風(fēng))
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )