2023 GAIR|優(yōu)刻得季昕華:中立云服務助力AIGC發(fā)展

8月14日,第七屆GAIR全球人工智能與機器人大會在新加坡隆重召開,大會特邀全球產(chǎn)業(yè)領袖、業(yè)內大咖共話大模型和生成式AI的技術突破和商業(yè)創(chuàng)新。據(jù)悉,本屆GAIR由雷峰網(wǎng)聯(lián)合新加坡GAIR研究院、世界科學出版社、科特勒咨詢集團等機構共同舉辦,是國內首個出海的大型AI論壇,也是中國人工智能影響力的一次跨境溢出。

UCloud優(yōu)刻得作為國內知名的云計算廠商受邀參會,UCloud優(yōu)刻得董事長兼CEO季昕華在《大模型時代的超級基建》主題論壇發(fā)表了題為《中立云服務助力AIGC發(fā)展》的精彩演講,分享了對大模型的關注與思考、剖析了大模型發(fā)展的痛點,并全面展示了UCloud優(yōu)刻得在AIGC領域的算力底座和工程實踐。

2023 GAIR|優(yōu)刻得季昕華:中立云服務助力AIGC發(fā)展

GPT的橫空出世引領著人工智能產(chǎn)業(yè)新機遇,“百模大戰(zhàn)”正在國內打響。季昕華總結了當前國內做通用和垂直大模型的企業(yè)已有130余家,團隊構成可劃分為五大方陣,分別是互聯(lián)網(wǎng)巨頭、上市公司、AI團隊、科學家創(chuàng)業(yè)、互聯(lián)網(wǎng)高管創(chuàng)業(yè),這些企業(yè)呈現(xiàn)出了資金、人才、數(shù)據(jù)、算力密度高的特點,也構成了大模型的四大核心要素。

大模型的生命周期包括前期的數(shù)據(jù)清洗、預訓練、有監(jiān)督微調、獎勵建模、強化學習,以及后續(xù)的部署運營六個階段,而在對應的過程中往往會面臨著多樣合規(guī)數(shù)據(jù)如何獲取,計算、存儲、網(wǎng)絡能否滿足訓練需求,模型的穩(wěn)定性和安全性又如何保障等一系列難題。UCloud優(yōu)刻得是中立、安全的云廠商,擁有超過10年的公有云技術沉淀并積累了全面的系統(tǒng)工程能力,具備從數(shù)據(jù)中心、計算平臺,到管理平臺、網(wǎng)絡服務、應用服務、生態(tài)接口等一站式產(chǎn)品和解決方案。

季昕華首先分享了大模型在功耗和電力方面的挑戰(zhàn),大模型所需的機房電量消耗大且功率更高。UCloud優(yōu)刻得烏蘭察布數(shù)據(jù)中心電力充分、電價低廉、可自然制冷且距離北京更近,具備高可靠性、高性價比等優(yōu)勢,可有效滿足大模型的訓練要求。相較上海、北京等同等質量的數(shù)據(jù)中心,成本下降40%;采用雙路不間斷電源供電,更加安全可靠;模塊化的設計布局,支持機房模塊、基礎設施配置的深度靈活定制。

當前大規(guī)模集群算力仍存在較大的缺口,UCloud優(yōu)刻得基于自建數(shù)據(jù)中心所打造的AIGC解決方案可充分滿足大模型企業(yè)對于底層算力基礎設施的需求,同時UCloud優(yōu)刻得可為客戶提供后續(xù)的維護服務。自建數(shù)據(jù)中心內提供專為GPU集群建設的高電機柜,并上線了多款GPU算力資源,推出了“訓練專區(qū)+推理專區(qū)+存儲專區(qū)+管理專區(qū)”的分區(qū)建設方案,企業(yè)可根據(jù)實際的訓練、推理、數(shù)據(jù)處理等應用場景進行靈活可擴展的算力選擇?;谕晟频幕A架構方案和安全保障,幫助大模型企業(yè)快速搭建算力平臺,并通過對接上層的資源調度系統(tǒng),提高模型訓練和推理效率,讓客戶專注于模型迭代與業(yè)務創(chuàng)新。

2023 GAIR|優(yōu)刻得季昕華:中立云服務助力AIGC發(fā)展

優(yōu)刻得 AIGC解決方案全景圖

其次是大模型的存儲挑戰(zhàn),存儲性能會直接影響大模型的訓練時間。大模型計算的工作負載大多是讀密集型的,UCloud優(yōu)刻得從大量列表元數(shù)據(jù)操作、高吞吐讀需求、大量順序寫入這三個方面針對基于US3對象存儲的文件系統(tǒng)進行升級改造,提升元數(shù)據(jù)性能、讀緩存和寫吞吐的能力。經(jīng)測試,優(yōu)化后的讀性能有70%左右的性能提升,達到5GBps;寫吞吐10%左右的吞吐提升,達到2.2GBps,可充分滿足大模型客戶在單點掛載時吞吐的性能需求,大幅提升訓練效率。后續(xù),UCloud優(yōu)刻得會在和kernel交互的方式上進一步優(yōu)化并發(fā)來提升寫吞吐的能力。此外,UCloud優(yōu)刻得研發(fā)中的GPUDirect Storage,將會有更高的存儲性能。

大模型訓練依賴于大規(guī)模分布式并行集群,還面臨著網(wǎng)絡層面的挑戰(zhàn)。一方面是因為模型本身非常大,需要拆分到多個GPU上來存儲;另一方面,模型參數(shù)量越大就越需要更多的計算量,千張GPU甚至幾千張GPU并行訓練是大模型成功的基礎。季昕華分享,大模型訓練RDMA網(wǎng)絡設計要滿足“大規(guī)模、高帶寬”的要求,目前UCloud優(yōu)刻得支持IB和RoCE兩種高性能網(wǎng)絡方案,可充分滿足大規(guī)模算力集群之間的高速網(wǎng)絡互聯(lián),實現(xiàn)多節(jié)點間的無損通信。

談到目前國內的場景應用,季昕華表示,按照對大模型輸出內容準確性的容忍度來分類,游戲NPC、社交輔助、電商、游戲/設計的畫圖、翻譯、客服支持、文字和編程輔助、教育、法律、醫(yī)療這10大行業(yè)場景有較為廣泛的落地。同時,大模型發(fā)展還將持續(xù)面臨數(shù)據(jù)安全、政府對于合規(guī)性的要求、國際關系對于中國AI發(fā)展的限制等挑戰(zhàn)。

2023 GAIR|優(yōu)刻得季昕華:中立云服務助力AIGC發(fā)展

在隨后的圓桌交流中,季昕華提到,“UCloud優(yōu)刻得從五個方面幫助大模型客戶進行降本增效,第一在烏蘭察布數(shù)據(jù)中心實現(xiàn)70%的電費成本節(jié)約;第二通過租用的方式,幫助客戶節(jié)省IT基礎設施成本投入;第三通過優(yōu)化網(wǎng)絡和存儲帶寬幫助提升大模型訓練效率;第四未來推理成本會遠高于訓練成本,UCloud優(yōu)刻得可以幫助客戶將大模型放至3090或V100進行推理任務;第五UCloud優(yōu)刻得不做大模型,但可以通過私有化大模型一體機的模式,幫助客戶推廣大模型。”

據(jù)悉,為加速垂直大模型的行業(yè)落地,UCloud優(yōu)刻得基于開箱即用的私有化大模型一體機提供一站式MaaS服務,支持Alpaca-LoRA7B、T5、MiniGPT-4、ChatGLM、Ziya、LlaMA2以及Milvus向量數(shù)據(jù)庫等開源大模型,企業(yè)可以快速搭建大模型的微調或推理環(huán)境,輕松部署大模型應用。大模型一體機內置UCloud優(yōu)刻得自主研發(fā)的全棧私有云平臺,統(tǒng)一了計算、存儲、網(wǎng)絡底層資源,通過運行環(huán)境一鍵打包和算力調度,使得大模型一體機既可作為訓練的算力運行環(huán)境,又可在訓練結束后,無縫切換至推理業(yè)務部署模式,確?;A設施成本可控、安全可靠。

在當下的大模型時代,UCloud優(yōu)刻得希望發(fā)揮云廠商在算力、工程、網(wǎng)絡、安全等多方面的產(chǎn)品技術和實踐能力,構筑強大的AI算力底座。同時,基于遍布全球的海外數(shù)據(jù)中心,協(xié)助大模型企業(yè)完成模型研發(fā)和測試等工作。作為中立的云計算企業(yè),優(yōu)刻得也希望與更多合作伙伴和科學家攜手進行大模型技術研究與迭代優(yōu)化,助力大模型應用快速、安全的落地千行百業(yè)。

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )