欧美A级毛欧美1级a大片免费播放亚洲每日看片天噜啦lacom ,国产精品豪乳自拍

算力革命再升級(jí) 昇騰大EP如何重塑AI推理效率邊界

人閱讀

2025-03-17 11:07:01

來源：TechWeb.com.cn
相關(guān)關(guān)鍵詞
- 昇騰
- AI

近年來，人工智能領(lǐng)域迎來爆發(fā)式增長(zhǎng)，大模型技術(shù)成為推動(dòng)行業(yè)變革的核心引擎，大模型能力的躍升不斷刷新人類對(duì)AI潛力的認(rèn)知。

當(dāng)OpenAI的GPT-4訓(xùn)練需消耗數(shù)數(shù)萬張GPU卡時(shí)，中國(guó)AI企業(yè)DeepSeek卻以“千卡級(jí)”算力訓(xùn)練出性能對(duì)標(biāo)國(guó)際巨頭的模型，這一反差揭示了行業(yè)的關(guān)鍵轉(zhuǎn)折點(diǎn)——從單純追求硬件性能的“軍備競(jìng)賽”，轉(zhuǎn)向通過工程創(chuàng)新實(shí)現(xiàn)算力效率的顛覆性提升。

DeepSeek在開源周里發(fā)布的大規(guī)模跨節(jié)點(diǎn)專家并行（大EP），更是揭開推理服務(wù)提高吞吐、降低時(shí)延的技術(shù)秘訣，掀起大模型推理系統(tǒng)優(yōu)化的熱潮。

以DeepSeek為代表的大模型創(chuàng)新為算力基礎(chǔ)設(shè)施也帶來新的技術(shù)趨勢(shì)：大模型向大量小專家方向演進(jìn)，性能提升、成本降低開始快速普及；另一方面，少量大專家模式走向高性能摸高，大量小專家向創(chuàng)新普及，未來兩種方案并存。

同時(shí)，DeepSeek采用的大規(guī)模跨節(jié)點(diǎn)專家并行，實(shí)現(xiàn)性能、吞吐量和并發(fā)用戶數(shù)量的顯著提升，成本大幅度降低，也為大模型推理系統(tǒng)采用大規(guī)?？绻?jié)點(diǎn)專家并行方案提供了可行性。

大規(guī)模專家并行EP，就是將專家Expert分布到更多的卡上，可以減少每張卡權(quán)重加載的時(shí)延，減少權(quán)重的顯存占用，能夠顯著的提升單卡并行的路數(shù)(batch size)。每個(gè)專家計(jì)算路數(shù)的提升可以提高矩陣乘的效率，從而實(shí)現(xiàn)更大的吞吐和更低的時(shí)延。同時(shí)大規(guī)模專家并行EP，更多專家也帶來負(fù)載均衡、卡間通信的挑戰(zhàn)。

盡管大規(guī)模跨節(jié)點(diǎn)專家并行集群推理能夠降低成本，但在實(shí)際應(yīng)用中仍面臨專家動(dòng)態(tài)均衡與通信時(shí)延等挑戰(zhàn)。
昇騰大EP解決方案憑借多項(xiàng)關(guān)鍵技術(shù)有效解決了以上挑戰(zhàn)，針對(duì)專家負(fù)載不均的難題，通過自動(dòng)尋優(yōu)、自動(dòng)配比、自動(dòng)預(yù)測(cè)、自動(dòng)降解，實(shí)現(xiàn)備份節(jié)點(diǎn)和副本專家靈活可擴(kuò)展、高可用和極致均衡。

針對(duì)All-to-All通信優(yōu)化的難題，昇騰大EP解決方案提出了雙流/多維混合并行，其中Prefill micro-batch雙流并行，可以實(shí)現(xiàn)計(jì)算和通信的相互掩蓋；MoE expert專家雙流并行，實(shí)現(xiàn)兩條數(shù)據(jù)流Stream的并行計(jì)算；Weight權(quán)重預(yù)取雙流并行，可以把訪存和通信并行起來，降低權(quán)重加載時(shí)間，提升效率。

此外，昇騰MLAPO融合算子也是關(guān)鍵技術(shù)之一，降低計(jì)算耗時(shí)70%。我們知道，MLA預(yù)處理階段，傳統(tǒng)方案多算子串行，頻繁占用內(nèi)存、通信等資源，整體計(jì)算耗時(shí)占比高。而昇騰MLAPO融合算子，將小算子融合成單一算子，Vector和Cube計(jì)算并行處理，減少開銷降低計(jì)算耗時(shí)。

在昇騰大EP推動(dòng)技術(shù)普惠的同時(shí)，英偉達(dá)針對(duì)中國(guó)市場(chǎng)推出的H20芯片卻顯露出明顯短板。

H20作為英偉達(dá)針對(duì)中國(guó)市場(chǎng)發(fā)布的AI芯片，是用于大模型訓(xùn)練普遍采用的H100“低配版”，其AI算力僅為H100的15%，在推理方面，受性能的制約，H20只能在特定模型架構(gòu)，展現(xiàn)出一定的效能。像DeepSeek采用的是混合專家(MoE)架構(gòu)，在高batch size場(chǎng)景下，H20極易陷入性能瓶頸，導(dǎo)致時(shí)延顯著增加，從而無法充分發(fā)揮DeepSeek專家并行機(jī)制所具有的高吞吐量?jī)?yōu)勢(shì)。因此，在大規(guī)模高并發(fā)的訓(xùn)推場(chǎng)景，H20難以滿足實(shí)際應(yīng)用需求。

當(dāng)DeepSeek證明“小算力亦可挑戰(zhàn)巨頭”，昇騰大EP則進(jìn)一步回答：如何讓每一焦耳電力、每一美元投入，釋放最大AI價(jià)值。這場(chǎng)效率革命的意義遠(yuǎn)超技術(shù)參數(shù)之爭(zhēng)——它標(biāo)志著AI競(jìng)爭(zhēng)從“硬件堆疊”轉(zhuǎn)向“工程創(chuàng)新”，最終邁向產(chǎn)業(yè)普惠。（御風(fēng)）

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）