華為數(shù)據(jù)存儲兩大新品齊發(fā):全面閃存化,全面向AI

極客網(wǎng)·企業(yè)級IT 9月27日 近日,在華為全聯(lián)接大會2024期間,華為重磅發(fā)布了兩大數(shù)據(jù)存儲新品,一是全新AI存儲OceanStor A800,二是新一代OceanStor Dorado全閃存存儲。在千行萬業(yè)積極融入AI、并借助AI重塑業(yè)務(wù)的關(guān)鍵階段,這兩款產(chǎn)品以Storage for AI助力企業(yè)組織通往AI數(shù)智時(shí)代。

其中,全新AI存儲OceanStor A800以長記憶內(nèi)存新范式全面提升AI大模型訓(xùn)練和推理能力,助力千行萬業(yè)大步邁入數(shù)智時(shí)代;新一代OceanStor Dorado全閃存存儲旨在以極致性能、極致韌性、AI-Ready的能力,為AI時(shí)代高速增長的的企業(yè)核心業(yè)務(wù)提供先進(jìn)數(shù)據(jù)存力。

全新AI存儲OceanStor A800,以長記憶內(nèi)存新范式提升AI大模型訓(xùn)推能力

全新AI存儲OceanStor A800在AI大模型高效訓(xùn)練能力的基礎(chǔ)上,大幅增強(qiáng)推理能力,并在集群性能、新數(shù)據(jù)范式上有了跨越式提升,呈現(xiàn)出三大特征。

首先,單套AI存儲設(shè)備支持十萬卡級大模型訓(xùn)練。OceanStor A800通過構(gòu)建前端網(wǎng)卡全共享、控制器與后端SSD盤全互聯(lián)的技術(shù)架構(gòu),單套存儲設(shè)備可支持10萬卡級集群全互聯(lián)。一套OceanStor A800 存儲最多可實(shí)現(xiàn)與19.2萬卡訓(xùn)練集群的靜態(tài)全連接,性能提升40%,空間占用降低80%。

其次,以存強(qiáng)算,AI集群可用度提升30%。AI訓(xùn)練中斷頻發(fā)是困擾行業(yè)的大難題,據(jù)統(tǒng)計(jì)AI訓(xùn)練中心持續(xù)訓(xùn)練的時(shí)間最長僅為2.6天,而根據(jù)業(yè)界某知名公司公開的萬卡集群訓(xùn)練數(shù)據(jù)顯示,在54天的訓(xùn)練周期內(nèi)意外中斷419次,更是平均3小時(shí)中斷一次,導(dǎo)致GPU/NPU必須反復(fù)保存CKPT數(shù)據(jù)。中國移動(dòng)將華為OceanStor AI存儲用于大模型訓(xùn)練,實(shí)現(xiàn)150PB單存儲集群、8TB/s帶寬和2.3億IOPS的能力,端到端訓(xùn)練效率提升5%,為后續(xù)更大規(guī)模大模型訓(xùn)練提供了有力支撐。

再次,以存代算,長記憶內(nèi)存型存儲提升推理體驗(yàn)并降低系統(tǒng)成本。在Long context(長上下文)成為大模型推理的必然發(fā)展趨勢背景下,根據(jù)Scaling law,提供足夠高的推理算力和中間Token數(shù),可大幅提升推理的準(zhǔn)確度。通過專業(yè)AI存儲,可長期保存Long context及海量中間推理Token,并提供高速訪問性能,最大程度提升大模型的邏輯思考和推理能力,實(shí)現(xiàn)在幫助大模型推理提升慢思考能力的同時(shí),也幫助大模型將慢思考的結(jié)果轉(zhuǎn)變后后續(xù)的快思考,讓大模型越用越聰明。

OceanStor A800作為業(yè)界首款提供長記憶能力的存儲,創(chuàng)新性采用多級KV緩存機(jī)制,將所有的思考結(jié)果持久化保存并高效使用,讓大模型推理具備長記憶能力,減少在Prefill階段的重復(fù)計(jì)算,客戶推理時(shí)延降低近八成,單個(gè)xPU卡的吞吐量提升約2/3,大幅提升推理體驗(yàn)的同時(shí)降低成本。

華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰博士表示,存儲的創(chuàng)新是由應(yīng)用驅(qū)動(dòng)的,上層的應(yīng)用變化了,存儲一定要變化。今天的AI訓(xùn)練系統(tǒng)對數(shù)據(jù)吞吐量的要求非常大,動(dòng)則萬卡、十萬卡使得內(nèi)部的網(wǎng)絡(luò)互聯(lián)、集群的關(guān)系也非常復(fù)雜,同時(shí)當(dāng)前AI推理的記憶主要發(fā)生在內(nèi)存里,長序列推理難以永久記憶且成本高昂,這些都要求存儲行業(yè)做出改變。因此華為發(fā)布全新的長記憶內(nèi)存型存儲架構(gòu)產(chǎn)品,去解決行業(yè)面臨的xPU與存儲的帶寬不足、算力集群可用度低、推理時(shí)延長等挑戰(zhàn)。

新一代OceanStor Dorado全閃存存儲,加速企業(yè)生產(chǎn)核心業(yè)務(wù)步入AI時(shí)代

華為新一代OceanStor Dorado全閃存存儲帶來了極致性能、極致韌性、AI-Ready三大能力躍升。

在極致性能方面,新一代全閃存軟硬件全面升級,智能DPU(數(shù)據(jù)處理單元)網(wǎng)卡提供數(shù)據(jù)流和控制流分離能力,打破處理器性能瓶頸,以專用硬件功能卡卸載CPU算力,開啟增值特性功能后性能無損。軟硬件深度協(xié)同釋放性能,全新升級的FLASHLINK? 智能盤控卡協(xié)同算法,達(dá)成存儲系統(tǒng)億級IOPS、0.03毫秒低時(shí)延,相較上一代全閃存存儲產(chǎn)品提升性能3倍,為AI時(shí)代高速增長的核心業(yè)務(wù)數(shù)據(jù)提供了先進(jìn)數(shù)據(jù)存力。

在極致韌性方面,新一代SmartMatrix全局互聯(lián)架構(gòu),容忍引擎、硬盤框、機(jī)柜多層故障,單設(shè)備可靠性達(dá)99.99999%,極端場景下支持8個(gè)引擎7個(gè)故障時(shí)業(yè)務(wù)仍恒穩(wěn)在線。此外,新一代OceanStor Dorado支持SAN和NAS全域防勒索,勒索病毒檢測率最高達(dá)99.99%。通過智能快照關(guān)聯(lián)分析及智能合成技術(shù),保障數(shù)據(jù)恢復(fù)100%可用。

在AI-Ready方面,新一代OceanStor Dorado全閃存存儲采用原生塊、文件、對象統(tǒng)一存儲架構(gòu),支持?jǐn)?shù)據(jù)庫、文件、容器等多樣化應(yīng)用,廣泛承載AI時(shí)代多樣化生產(chǎn)核心數(shù)據(jù)存儲需求。通過AI大模型DataMaster加持的DME數(shù)據(jù)管理引擎實(shí)現(xiàn)對話式運(yùn)維,并利用大模型技術(shù)主動(dòng)發(fā)現(xiàn)異常,運(yùn)維效率提升5倍。

在華為閃存存儲領(lǐng)域總裁黃濤看來,新一代OceanStor Dorado全閃存存儲實(shí)現(xiàn)了兩個(gè)重定義,一是重新定義高端存儲,實(shí)現(xiàn)了3倍的性能提升,7個(gè)9的可靠性保障,5倍的運(yùn)維效率提升;二是重新定義了新的統(tǒng)一的融合協(xié)議,把SAN、NAS和對象存儲融合到一起,同時(shí)保證性能和可靠性不下降,以更好地加速AI時(shí)代多樣化數(shù)據(jù)處理的挑戰(zhàn)。

全面閃存化+全面向AI,華為數(shù)據(jù)存儲面向AI大模型時(shí)代交出最新答卷

公開資料顯示,華為數(shù)據(jù)存儲已廣泛應(yīng)用在金融、制造、教育、醫(yī)療等多個(gè)行業(yè),服務(wù)全球26000多家客戶,150多個(gè)國家和地區(qū),其中全球Top100銀行中已有53家選擇華為,其一舉一動(dòng)都備受關(guān)注。從本次發(fā)布的兩大新品的特點(diǎn)看,全面閃存化、全面向AI,已成為華為數(shù)據(jù)存儲面向AI大模型時(shí)代交出的最新答卷。

一方面,作為高端存儲行業(yè)的領(lǐng)軍企業(yè),更高性能、更低能耗的全閃一直是華為孜孜不倦的追求。恰如周躍峰博士不止一次所說,“中國的存儲全閃存比例太低了,太費(fèi)電”。

市場研究數(shù)據(jù)顯示,今天中國市場的閃存率不足30%,而在美國達(dá)到了60%。同時(shí),中國的閃存率不僅僅落后于美國,甚至還落后于新加坡、南非這些小國。所以無論是從客戶需求還是從供應(yīng)鏈的安全角度看,中國未來的全閃存存儲市場都還有大幅度的發(fā)展空間。中國市場整個(gè)產(chǎn)業(yè)界也正在聯(lián)合起來,驅(qū)動(dòng)整個(gè)存儲走向全閃化,以實(shí)現(xiàn)綠色高質(zhì)量的發(fā)展。

另一方面,作為業(yè)界最早提出邁向智能世界愿景的企業(yè),華為認(rèn)為面向AI時(shí)代的IT基礎(chǔ)設(shè)施應(yīng)該是存、算、網(wǎng)協(xié)同發(fā)展。這方面周躍峰博士也不止一次表示,“我們不能只管算,不管存和網(wǎng)”。

眾所周知,AI事實(shí)上有三大組成部分,即算力、算法和數(shù)據(jù)。但今天在社會上,算力和算法(包含模型)的熱度遠(yuǎn)高于對數(shù)據(jù)的關(guān)注度。然而,數(shù)據(jù)的準(zhǔn)備在整個(gè)AI系統(tǒng)建設(shè)里面花的時(shí)間要超過40%,這還不包括數(shù)據(jù)收集的時(shí)間。所以,企業(yè)擁抱AI大模型,數(shù)據(jù)得從當(dāng)下就著手準(zhǔn)備,包括協(xié)議的歸一、數(shù)據(jù)存放的歸一、數(shù)據(jù)的編織等,并做好數(shù)據(jù)與xPU算力之間的大帶寬高速網(wǎng)絡(luò)傳輸,全面AI-Ready,才能事半而功倍,同時(shí)確保成本效益。

AI大模型時(shí)代,數(shù)據(jù)是最重要的生產(chǎn)要素,企業(yè)整個(gè)數(shù)據(jù)基礎(chǔ)設(shè)施也必須圍繞數(shù)據(jù)做文章,才能充分支撐AI的訓(xùn)練、推理及應(yīng)用。數(shù)據(jù)存儲作為核心一環(huán),全面閃存化、做到AI-Ready刻不容緩!

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-09-27
華為數(shù)據(jù)存儲兩大新品齊發(fā):全面閃存化,全面向AI
以Storage for AI助力企業(yè)組織通往AI數(shù)智時(shí)代。

長按掃碼 閱讀全文