而智能算力的生產(chǎn)、分發(fā)、調(diào)度離不開人工智能公共算力開放創(chuàng)新平臺等基礎設施的支撐。同時,我國算力分布不均衡,各地的智算中心、超算中心需要聯(lián)動,促進東部地區(qū)靈活使用西部的算力,推動全國一體化協(xié)同創(chuàng)新體系快速形成。
在此背景下,天翼云推出智能計算平臺“云驍”,提供智算、超算、通算多樣化算力服務,這也是運營商首個云智超一體化算力平臺。依托天翼分布式架構(gòu)云底座和海量計算、存儲、網(wǎng)絡資源,“云驍”可提供軟硬一體的解決方案,實現(xiàn)高階算力供給、資源高效利用、多種能力服務一站式提供,助力行業(yè)數(shù)字化轉(zhuǎn)型、降低企業(yè)創(chuàng)新成本。
基于云網(wǎng)融合優(yōu)勢以及天翼云多年的技術沉淀,“云驍”在算力底座、算效提升、算力異構(gòu)、算力布局四個方面取得了新突破。具體而言,借助天翼云4.0底座,“云驍”打造了高性能算力底座,包括GPU裸金屬及云主機、HPFS并行文件系統(tǒng)、RDMA網(wǎng)絡等底座能力,統(tǒng)一支持智算和超算服務;針對超大規(guī)模分布式集群訓練進行一系列技術優(yōu)化,實現(xiàn)高達80%以上超高線性加速比算效提升;支持多種主流AI框架與高性能計算任務管理器,支持多種CPU與GPU的多樣化異構(gòu)算力;支持智能算力全網(wǎng)分級部署,構(gòu)建從中心到區(qū)域,再到邊緣的多級訓練推理體系。
目前,“云驍”已在多個行業(yè)場景落地應用,賦能企業(yè)快速發(fā)展。在汽車制造行業(yè),吉利汽車基于天翼云智能計算平臺“云驍”,構(gòu)建起HPC專屬云資源池,大幅提升了算力速度、存儲空間、網(wǎng)絡響應,其計算速度能達到每秒千萬億次,能計算普通PC機和服務器不能完成的大型、復雜課題。目前,吉利汽車平均做一次模擬測試的時間從10小時縮短到6小時,HPC排隊隊列的減少,有效增加了方案驗證的數(shù)量,快速輸出結(jié)果,也保障了決策的快速輸出。
此外,天翼云智能計算平臺還為智能語音服務、人工智能研究機構(gòu)等客戶,進行訓練和微調(diào)大模型。“云驍”提供分布式訓練一站式解決方案,融合GPU拓撲感知、親和調(diào)度、高IO并行文件系統(tǒng)等底層技術,支持多種模型訓練方式,兼容主流AI框架,擴展定制業(yè)界主流分布式訓練方案,提升訓練數(shù)據(jù)量,縮短模型交付周期;提供定制化算法框架,采用代碼生成等方式,內(nèi)置提供豐富的算子,簡化數(shù)據(jù)集導入、特征工程處理、預訓練模型依賴等步驟,提升AI訓練開發(fā)效率;針對大模型分布式環(huán)境下的訓練,顯存優(yōu)化方面使用ZeRo等技術,打破顯存與內(nèi)存的隔閡,降低訓練的顯存開銷。
憑借技術創(chuàng)新和在資源、平臺、應用等核心能力方面的表現(xiàn),日前天翼云智能計算平臺率先順利通過中國信息通信研究院《可信算力服務 平臺技術能力要求 第3部分:智算平臺》評估,成為業(yè)內(nèi)首批通過該項評估的云服務商。
隨著數(shù)字化經(jīng)濟發(fā)展和產(chǎn)業(yè)變革持續(xù)推進,天翼云將加強科技創(chuàng)新,不斷提高云網(wǎng)算力技術與服務水平,完善智算基礎設施,與業(yè)界伙伴攜手探索算力應用模式,賦能千行百業(yè)數(shù)智化發(fā)展,全面助推數(shù)字中國建設。