• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當(dāng)前的位置是:  首頁(yè) > 新聞 > 國(guó)內(nèi) >
     首頁(yè) > 新聞 > 國(guó)內(nèi) >

    GOPS2018華為云運(yùn)維最佳CP引領(lǐng)AIOps新風(fēng)向

    --

    2018-04-16 10:24:41   作者:   來(lái)源:CTI論壇   評(píng)論:0  點(diǎn)擊:


      在第九屆全球運(yùn)維大會(huì)GOPS上,華為云應(yīng)用運(yùn)維域首席架構(gòu)師蔡小剛做了以“華為三位一體探索AIOps關(guān)鍵技術(shù)的實(shí)踐”為主題的演講,從4個(gè)方面與大家分享華為云運(yùn)維采用產(chǎn)學(xué)研三位一體模式促進(jìn)云管平臺(tái)關(guān)鍵技術(shù)探索的實(shí)踐,涉及大規(guī)模Kubernetes容器集群的管控,Serverless環(huán)境中因果序列追蹤、多源數(shù)據(jù)的RCA分析探、聚類(lèi)算法實(shí)現(xiàn)網(wǎng)絡(luò)包的Blackbox分析。
      作為全球領(lǐng)先的云計(jì)算服務(wù)商,華為云提供兩大運(yùn)維服務(wù)——應(yīng)用運(yùn)維管理(AOM)和應(yīng)用性能管理(APM)服務(wù),實(shí)現(xiàn)復(fù)雜云應(yīng)用的端到端性能洞察。華為云應(yīng)用運(yùn)維投入持續(xù)研發(fā),在智能AutoScaling、Serverless的調(diào)用跟蹤、基于AI的異常檢測(cè)和RCA分析、基于Clustering的Blackbox分析等方面進(jìn)行了創(chuàng)新性探索并取得長(zhǎng)足的進(jìn)展,增強(qiáng)了大規(guī)模云應(yīng)用的智能運(yùn)維(AIOps)能力。
      華為云應(yīng)用運(yùn)維域首席架構(gòu)師現(xiàn)場(chǎng)分享
      關(guān)于“華為三位一體探索AIOps關(guān)鍵技術(shù)的實(shí)踐”的演講
      大規(guī)模K8S容器集群的管控
      華為已經(jīng)在試驗(yàn)環(huán)境中成功驗(yàn)證了百萬(wàn)容器級(jí)別的管控。由于容器集群的計(jì)算資源異構(gòu)、網(wǎng)絡(luò)虛擬化、集群類(lèi)型多樣、秒級(jí)擴(kuò)縮容等導(dǎo)致的復(fù)雜性,以及客戶應(yīng)用技術(shù)棧的多樣性(比如微服務(wù)化、Serverless化、基礎(chǔ)組件服務(wù)化)導(dǎo)致的復(fù)雜性,對(duì)管控提出了兩方面的要求:一是滿足平臺(tái)自身的OM運(yùn)維;另外一方面要滿足部署在平臺(tái)上的客戶應(yīng)用系統(tǒng)的運(yùn)維訴求。華為云應(yīng)用運(yùn)維域針對(duì)性設(shè)計(jì)實(shí)現(xiàn)了應(yīng)用及資源模型化---Inventory建模,實(shí)現(xiàn)了傳統(tǒng)意義上的CMDB和OSLC的能力,把基礎(chǔ)設(shè)施和應(yīng)用映射起來(lái),為跨資源、跨層面的關(guān)聯(lián)提供了現(xiàn)實(shí)可能。
      容器彈性伸縮Auto-Scaling的決策來(lái)自華為云運(yùn)維服務(wù),除了預(yù)定義的scaling外,還實(shí)現(xiàn)了機(jī)器學(xué)習(xí)算法的Auto-Scaling,為復(fù)雜的大規(guī)模應(yīng)用提供更智能的選擇,最大化節(jié)省客戶資源成本開(kāi)銷(xiāo)。
      除了上述兩點(diǎn),華為云應(yīng)用性能管理(APM)和應(yīng)用運(yùn)維管理(AOM)還實(shí)現(xiàn)了開(kāi)箱即用的性能數(shù)據(jù)采集、在線感知和計(jì)算、異常告警、應(yīng)用拓?fù)洹⒄{(diào)用鏈分析等功能,結(jié)合華為云性能測(cè)試服務(wù)(CPTS)、大數(shù)據(jù)智能分析等生態(tài)服務(wù),實(shí)現(xiàn)對(duì)應(yīng)用運(yùn)維的端到端性能洞察。良好的云原生分布式架構(gòu)成功解決了海量數(shù)據(jù)、大規(guī)模應(yīng)用部署帶來(lái)性能下降的挑戰(zhàn)。

      大規(guī)模容器應(yīng)用管控 — 支撐工具及生態(tài)環(huán)境
      Serverless環(huán)境中因果序列追蹤
      Serverless使得開(kāi)發(fā)者無(wú)需關(guān)注基礎(chǔ)設(shè)施,只用聚焦業(yè)務(wù)邏輯并進(jìn)行簡(jiǎn)單部署就可以完成,提供了快捷的開(kāi)發(fā)方式。這也意味著APM for Serverless是一個(gè)全新的子領(lǐng)域,需要一種針對(duì)性的應(yīng)用性能跟蹤、評(píng)估的機(jī)制。華為云聯(lián)合美國(guó)加州大學(xué)教授,對(duì)Serverless場(chǎng)景進(jìn)行深入研究,采用Go語(yǔ)言,對(duì)分布式日志記錄系統(tǒng)Chariots的理論進(jìn)行了實(shí)現(xiàn)和擴(kuò)展:GoChariots。它本質(zhì)上是在logging之前通過(guò)隊(duì)列排序,按照因果順序(Causal Order)依次追加日志記錄。
      通過(guò)為Serverless和微服務(wù)云應(yīng)用程序提供因果順序跟蹤,并且可以跨云(不與特定云服務(wù)商綁定)。它可以以復(fù)制模式運(yùn)行,因此跨數(shù)據(jù)中心應(yīng)用程序可以與最近的副本進(jìn)行通信,大大降低了通信開(kāi)銷(xiāo),提高了可用性和進(jìn)度。由于SDK使用HTTP POST將事件發(fā)送到后端,因此對(duì)function的開(kāi)發(fā)語(yǔ)言沒(méi)有約束。
      另外,結(jié)合AWS Lambda環(huán)境,華為云開(kāi)發(fā)了GammaRay,基于第三方開(kāi)源AWS Instrument SDK for Python(Fleece)庫(kù)埋點(diǎn),驗(yàn)證了Causal Order Tracking(COT)理論。GammaRay是對(duì)X-Ray的擴(kuò)展,只適用于AWS Lambda調(diào)用關(guān)系分析。
      (具體細(xì)節(jié)參考華為在IC2E的full paper: Tracking Causal Order in AWS Lambda Applications。)
      多源數(shù)據(jù)的RCA分析探索
      根因分析RCA已經(jīng)是個(gè)老話題了,單點(diǎn)技術(shù)不斷進(jìn)步完善、積累和突破,但仍然是森林中的“樹(shù)”,為了避免盲人摸象的問(wèn)題,必須進(jìn)行全面的分析。
      一個(gè)復(fù)雜系統(tǒng)中,一旦故障的發(fā)生會(huì)引起連鎖反應(yīng),直接體現(xiàn)就是故障的傳導(dǎo)鏈。在此場(chǎng)景中,首先要解決異常檢測(cè)(anomaly detection);其次要解決問(wèn)題的定界定位(RCA:root cause analysis)。針對(duì)異常檢測(cè),除了傳統(tǒng)靜態(tài)閾值比較,華為云還開(kāi)發(fā)了基于時(shí)序數(shù)據(jù)分析的動(dòng)態(tài)閾值,典型的有ARIMA算法等。大部分情況下,利用APM的應(yīng)用拓?fù)洹⑹聞?wù)分析就能發(fā)現(xiàn)性能瓶頸或者問(wèn)題。為了更全面的分析,華為云聯(lián)合歐美大學(xué)教授和華為海外專(zhuān)家一起利用ML對(duì)調(diào)用鏈數(shù)據(jù)做了深層次的數(shù)據(jù)分析。如在多個(gè)時(shí)序變量預(yù)測(cè)的單一事件場(chǎng)景中,采用了隱馬爾科夫模型(HMM:Hidden Markov Model),在工程實(shí)現(xiàn)中結(jié)合APM中的Inventory數(shù)據(jù)、拓?fù)鋽?shù)據(jù)和調(diào)用鏈數(shù)據(jù)來(lái)確定事件依賴關(guān)系,從而發(fā)現(xiàn)故障傳導(dǎo)鏈。當(dāng)前我們還在合作研究驗(yàn)證無(wú)監(jiān)督機(jī)器學(xué)習(xí)應(yīng)用在日志、指標(biāo)的實(shí)時(shí)Stream關(guān)聯(lián)分析與預(yù)警。
      聚類(lèi)算法實(shí)現(xiàn)網(wǎng)絡(luò)包的Blackbox分析
      在業(yè)務(wù)通用的兩種主流分布式追蹤技術(shù)采集方案代碼侵入式埋點(diǎn)和非侵入式探針外,華為云開(kāi)發(fā)一種全新的用非侵入式方法來(lái)實(shí)現(xiàn)調(diào)用拓?fù)浼?jí)別的分析。數(shù)據(jù)采集工具vProbe支持識(shí)主流的應(yīng)用協(xié)議,通過(guò)旁路監(jiān)聽(tīng)網(wǎng)絡(luò)獲得數(shù)據(jù)。數(shù)據(jù)只涉及基礎(chǔ)的性能數(shù)據(jù),不涉及業(yè)務(wù)或者隱私方面的數(shù)據(jù)(必要時(shí)采取數(shù)據(jù)脫敏措施)。
      在BlackBox分析研究中,學(xué)術(shù)界有很多研究,但是其工程實(shí)現(xiàn)遠(yuǎn)遠(yuǎn)滿足不了產(chǎn)品級(jí)別要求。華為云不斷嘗試創(chuàng)新方法,經(jīng)過(guò)理論分析和原型推導(dǎo)驗(yàn)證,最后利用Hierarchical Clustering實(shí)現(xiàn)了服務(wù)之間的因果路徑推導(dǎo),準(zhǔn)確率基本達(dá)到了90~95%以上,與基于Whitebox方法得到的應(yīng)用拓?fù)浠疽恢拢瑓^(qū)別在于不能做到單一transaction的性能追蹤,但對(duì)整個(gè)應(yīng)用的性能態(tài)勢(shì)感知和瓶頸識(shí)別已經(jīng)完全可以滿足問(wèn)題的及時(shí)告警和定界定位。
      我們相信云計(jì)算及其應(yīng)用運(yùn)維,單純的人海戰(zhàn)術(shù)已經(jīng)失靈,而DevOps、AIOps和NoOps是必然選擇。此路漫漫其修遠(yuǎn)兮,同道攜手上下求索……
      長(zhǎng)按二維碼即可免費(fèi)體驗(yàn)
      華為云應(yīng)用運(yùn)維APM服務(wù)~
    【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 新宾| 利川市| 孙吴县| 安泽县| 藁城市| 西丰县| 安泽县| 钟山县| 安仁县| 苏尼特左旗| 离岛区| 保康县| 赤城县| 南昌县| 桐庐县| 岐山县| 张家港市| 东乌珠穆沁旗| 萝北县| 霍州市| 弋阳县| 自治县| 玉溪市| 武城县| 洛川县| 榆社县| 山阳县| 米脂县| 建瓯市| 怀集县| 志丹县| 光山县| 三都| 宁明县| 盐池县| 灵璧县| 工布江达县| 游戏| 南木林县| 辰溪县| 容城县| http://444 http://444 http://444 http://444 http://444 http://444