1、AI驅動數據中心重構
數據中心網絡面臨新挑戰(zhàn)
企業(yè)智能化升級驅動數據中心從云時代邁入了智能時代。相比而言,云數據中心更像是個業(yè)務支撐中心,以應用為中心,通過云平臺實現IT資源的快速發(fā)放。而AI數據中心在云數據中心基礎上真正演進成為商業(yè)價值中心,以數據為中心,聚焦于如何基于AI對數據進行高效處理。

AI 驅動數據中心重構
眾所周知,AI高效運行依賴巨大算力支撐,比如一次普通的語音識別的AI訓練涉及到20E(1E=1018)次的浮點計算,即便用全世界最高性能的超級計算機來計算,也需要較長的時間。
AI的算力訴求驅動數據中心架構重塑。數據中心正走向以全閃存存儲數據湖為核心,以 GPU/AI多樣化計算為算力底座的智能時代數據中心新架構。存儲和計算設施正在發(fā)生顛覆性的變革:全閃存化存儲介質使得存儲性能提升百倍,GPU/AI智能計算使得計算性能提升百倍。
如果說單個服務器的運行效率通過提升處理器和存儲介質的性能來獲得,而整個數據中心的運行效率則取決于數據中心網絡的性能。數據中心網絡已經成為智能時代數據中心算力釋放,數據價值變現的核心關鍵。同時AI作為智能時代的使能技術,如何進一步幫助數據中心網絡自身完成智能升級,提升部署運維效率,成為新的機遇和挑戰(zhàn)。
2、CloudFabric
面向AI智能時代全新升級
作為企業(yè)數據金礦的煉金術,AI點石成金,成為企業(yè)數字化轉型到智能升級成敗的關鍵。而AI技術的大量使用,驅動企業(yè)數據中心使命發(fā)生顛覆性變革。值此AI技術正在廣泛應用于數據中心之際,為了幫助客戶更好地應對新挑戰(zhàn),華為對CloudFabric數據中心網絡解決方案進行全新升級。
全球最高密400GE
打通進入智能時代康莊大道
企業(yè)數字化帶來全球每年產生數據量暴增,據華為GIV預測預計2025年將達到 180ZB,10年增加20倍。當前100GE的數據中心網絡已經無法應對未來幾年的數字洪水挑戰(zhàn),同時從業(yè)界主流的AI業(yè)務服務器來看100GE網卡接口已經成為標配,數據中心網絡400GE時代已經來臨。
2019年,華為發(fā)布的業(yè)界首款面向AI智能時代的數據中心交換機CloudEngine 16800,全面升級了硬件交換平臺,在正交架構基礎上,突破超高速信號傳輸、超強散熱、高效供電等多項技術難題,使得單槽位可提供業(yè)界最高密度48端口400GE線卡,單機提供業(yè)界最大的768端口400GE交換容量,交換能力達到業(yè)界的5倍,輕松應對AI智能時代流量倍增需求。

CloudEngine 16800 數據中心交換機
業(yè)界首個0丟包以太網
釋放智能時代算力巔峰
智能時代的核心就是引入AI挖掘數據價值,以深度學習為特征的AI計算依賴海量的數據的輸入,數據的存取速度將直接影響算力的發(fā)揮。計算和存儲的性能百倍提升導致傳統網絡的擁塞易丟包帶來的網絡瓶頸問題開始突顯。1‰的丟包在AI時代會直接導致算力下降接近 50%。而隨著業(yè)務負載增加和分布式計算流量的增多,網絡丟包問題將更為嚴重。AI數據中心一方面算力貴,算力缺成為時代挑戰(zhàn),而另一方面由于網絡瓶頸問題導致昂貴的算力無法充分釋放。如何構建一個0丟包的無損數據中心網絡成為面向智能時代的數據中心網絡的基本要求。
華為CloudEngine 16800通過獨創(chuàng)的 iLossLess智能無損交換算法,實現流量模型自適應自優(yōu)化。基于CloudEngine交換機構筑的智能無損DCN,真正實現以太網絡0丟包,全面釋放AI算力潛能。根據權威第三方測試機構Tolly測試,在同樣GPU集群下,通過采用華為智能無損DCN,AI業(yè)務的訓練效率比采用當前業(yè)界其他網絡提升27%以上。

華為智能無損 DCN
華為智能無損DCN目前已經應用于代表全球算力巔峰的AI訓練集群Atlas900中,成為其突破性能瓶頸沖擊世界紀錄的關鍵助推器。智能無損DCN不僅僅是面向AI訓練集群的高性能網絡,更是代表面向智能時代數據中心的新一代網絡新架構。
率先實現網絡全智能
邁向自治自愈的自動駕駛
數據中心的規(guī)模越來越大,結構越來越復雜,有些數據中心OPEX支出甚至超過為CAPEX的三倍,數據中心的效率和成本面臨結構性挑戰(zhàn),即便采用當前主流的SDN實現網絡的自動部署,但是在業(yè)務意圖理解,網絡日常巡檢,故障定位修復等方面,仍然依賴管理員。
華為首先提出自動駕駛網絡的理念,在SDN網絡架構基礎上,針對網絡設備、網絡管理控制及上層業(yè)務編排系統,在規(guī)劃、部署、運行、維護、優(yōu)化和經營的端到端過程中引入AI技術。通過AI技術使得網絡從自動化業(yè)務部署和動作執(zhí)行,走向智能化的故障自愈,網絡自我優(yōu)化,最終實現網絡自治自愈和無人值守。
AI加持的全智能數據中心網絡CloudFabric目前已經可以初步實現“智能理解業(yè)務意圖、智能選取最佳網絡路徑、智能評估變更風險、智能檢測故障和快速定位根因”,針對75類常見故障,可以做到1分鐘感知故障、3分鐘定位故障、5分鐘修復故障,率先在數據中心網絡領域實現業(yè)界首個L3級自動駕駛網絡,并獲得Tolly第三方權威機構的認證。
3、全新CloudFabric
引領數據中心網絡進入智能時代
大約2000年左右,隨著企業(yè)信息化戰(zhàn)略的發(fā)展推進,真正的企業(yè)數據中心誕生。2010年左右企業(yè)數字化戰(zhàn)略提出,云計算方興未艾之際華為率先發(fā)布業(yè)界首個云數據中心網絡CloudFabric,引領數據中心進入云時代,實現 IT資源的彈性擴縮和自動發(fā)放。
當前企業(yè)數字化轉型進入智能化升級新階段,AI 正在廣泛應用于數據中心之際,華為對CloudFabric進行全新升級。CloudFabric不僅率先完成數據中心網絡自身的全智能化,實現了業(yè)界首個L3級的自動駕駛網絡,更通過全球最高密400GE的CloudEngine交換機和獨創(chuàng)iLossless算法,實現業(yè)界唯一的0丟包智能無損DCN,釋放智能時代AI算力巔峰,讓AI業(yè)務運行更高效,讓數據價值商業(yè)變現更充分,再一次引領數據中心網絡進入智能時代。