摘要:10倍級(jí)調(diào)優(yōu)效率、分鐘級(jí)任務(wù)恢復(fù)!昇思助力千億模型快穩(wěn)訓(xùn)練
基于昇騰AI大集群,運(yùn)營商伙伴基于昇思MindSpore AI框架成功實(shí)現(xiàn)了Llama3.1-405B大模型的訓(xùn)練。數(shù)據(jù)顯示,本次模型訓(xùn)練性能與原生方案持平,訓(xùn)練效率及穩(wěn)定性顯著提升,展示了昇騰AI處理器與昇思AI框架軟硬結(jié)合的強(qiáng)大能力。
本次聯(lián)合創(chuàng)新,是運(yùn)營商伙伴聯(lián)合昇思首次在超大規(guī)模集群上,快速打造基于昇思MindSpore版本的開源千億稠密大模型,且實(shí)現(xiàn)適配后模型原生、訓(xùn)練效率提升。
根據(jù)公開報(bào)道,Llama3.1-405B原生訓(xùn)練耗時(shí)持續(xù)54天,累計(jì)發(fā)生419次故障,平均每3小時(shí)產(chǎn)生一次,模型訓(xùn)練耗時(shí)長、穩(wěn)定性要求高,如何優(yōu)化訓(xùn)練性能、提升執(zhí)行效率,同時(shí)提升穩(wěn)定性,成為加速模型訓(xùn)練、提升模型精度的關(guān)鍵。面向訓(xùn)得快、訓(xùn)得穩(wěn)等需求,昇思MindSpore提供了大模型開發(fā)套件、多維混合分布式并行、斷點(diǎn)續(xù)訓(xùn)等能力,支持Llama3.1-405B又快又穩(wěn)訓(xùn)練。
一、10倍級(jí)調(diào)優(yōu)效率提升,任務(wù)拉起快、分布式配置策略便捷
MindSpore Transformers大模型開發(fā)套件支持一鍵YAML配置多維并行切分策略,使用開發(fā)的套件的訓(xùn)練組件,相較業(yè)界其他產(chǎn)品更簡潔易用,快速在超大集群上拉起千億稠密模型任務(wù),提升計(jì)算的調(diào)度效率。
同時(shí),套件封裝輕量接口調(diào)用分布式并行接口,使用數(shù)據(jù)并行、模型并行、流水線并行、細(xì)粒度多副本并行、序列并行等多種策略混合,配合offset參數(shù)調(diào)整模型切分策略,實(shí)現(xiàn)模型切分的計(jì)算與內(nèi)存負(fù)載均衡,解決內(nèi)存瓶頸問題,最大化昇騰硬件性能釋放,結(jié)合LazyInline等特性,提升內(nèi)存復(fù)用效率。此外,依托計(jì)算通信多流水并行、運(yùn)行時(shí)流水異步調(diào)度,算子融合等多種加速優(yōu)化特性,進(jìn)一步提升模型性能。
此外,MindSpore的內(nèi)存復(fù)用技術(shù)進(jìn)一步優(yōu)化了資源使用,降低了重復(fù)計(jì)算的比例,使得大規(guī)模訓(xùn)練更加高效。
模型的調(diào)試調(diào)優(yōu)依托MindSpore提供的Dryrun模擬功能,實(shí)現(xiàn)單卡仿真集群分布式策略選擇。訓(xùn)練時(shí)在離線的單卡場景進(jìn)行模型訓(xùn)練的內(nèi)存瓶頸分析、并行策略調(diào)優(yōu),無需占用超大集群,并將單卡模擬的分布式策略直接映射到超大集群應(yīng)用,在小時(shí)級(jí)時(shí)間尺度上調(diào)試出接近極致性能的405B并行策略配置,相對(duì)于傳統(tǒng)的大集群上直接調(diào)優(yōu),效率提升10倍以上,同時(shí),降低開發(fā)者選擇分布式并行策略門檻,節(jié)省大量硬件資源及時(shí)間成本。
二、20分鐘內(nèi)實(shí)現(xiàn)任務(wù)恢復(fù):斷點(diǎn)續(xù)訓(xùn)與編譯緩存技術(shù)
面對(duì)千億參數(shù)模型在超大集群的頻繁中斷問題,昇思MindSpore通過編譯緩存技術(shù),打造確定性CKPT,支持?jǐn)帱c(diǎn)續(xù)訓(xùn),以小時(shí)級(jí)顆粒度進(jìn)行任務(wù)保存,減少中斷時(shí)訓(xùn)練進(jìn)度的丟失。斷點(diǎn)續(xù)訓(xùn)顯著縮短了故障情況下任務(wù)重新拉起的耗時(shí),斷點(diǎn)續(xù)訓(xùn)自故障發(fā)生至新訓(xùn)練出loss時(shí)間跨度縮至20分鐘內(nèi),大幅減少了長時(shí)間任務(wù)中斷后重新啟動(dòng)的等待時(shí)間。
未來,昇思MindSpore將攜手更多伙伴,在自主創(chuàng)新的軟硬件基礎(chǔ)平臺(tái)上,原生孵化、適配支持更多全球范圍的主流模型,加速使能大模型創(chuàng)新,推動(dòng)AI應(yīng)用落地。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )