在QCon全球軟件開發大會即將于上海召開之際,InfoQ《極客有約》聯合AICon特別策劃了一場關于AI與可觀測技術融合的直播討論。阿里云可觀測技術架構負責人張城擔任主持人,與阿里云算法專家李也、字節跳動Dev-Infra觀測平臺算法負責人董善東、小紅書可觀測團隊負責人王亞普共同探討AI時代下可觀測技術的新邊界。
傳統可觀測技術主要聚焦于"看見"系統狀態,而未來新一代運維范式正朝著"發現—分析—解決—復盤"的完整閉環演進。在這個過程中,可觀測系統不再僅僅是數據的"眼睛",而是逐漸演變為具備"大腦"和"手"的多功能角色。專家們指出,只有建立貼近真實場景的評測標準,并在大量實際案例中驗證模型表現,才能構建起對AI的信任機制。
關于AI對可觀測技術帶來的變革,李也認為主要體現在兩個方面:一是"AI for可觀測",大模型能夠自動生成SQL、配置大盤和定時任務,準確率可達80%-90%;二是"可觀測for AI",AI系統產生的海量trace數據和復雜的分析診斷需求,對新一代可觀測系統提出了更高要求。董善東補充道,LLM為AIOps提供了通用"大腦基座",顯著改變了傳統實施方式,使多模態理解與融合成為可能。
在衡量AI Agent智能水平的問題上,專家們達成共識:實戰能力比實驗室評測分數更為重要。董善東提出將AI Agent能力分為三個層級:L1+級別的單點增強、L2級別的自主性解決問題、L3級別的學習能力。李也指出,當前一些大模型榜單存在"刷榜"現象,實驗室評分往往無法真實反映模型的實戰水平,評估需要合理劃分任務難度。
關于大模型與傳統算法的關系,王亞普認為兩者是分工協作、優勢互補的關系。傳統算法在特定場景下具有快速、準確、穩定的優勢,而大模型則具備跨領域、復雜信息的處理能力和泛化能力。李也通過"排除法"論證,指出大模型無法取代傳統算法,特別是在處理原始可觀測數據時存在天然劣勢,需要領域微調或強化學習才能具備實用價值。
在構建AI信任機制方面,專家們提出了多種解決方案。李也認為需要通過大量實踐與真實評測來建立信任,王亞普強調要采用灰度驗證等手段逐步放量,建立可解釋性、可審計性、可回滾性的保障機制。董善東則提出從"易接受人群"切入,讓AI"潤物細無聲"地融入現有工作流程,逐步積累信任。
對于SRE和運維工程師的未來角色,專家們普遍認為將向"高可用架構師"和"AI訓練師"轉型。王亞普指出,當AI接管重復性工作后,SRE將有時間思考系統架構的合理性等更本質的問題。董善東認為,SRE將逐漸具備"AI訓練師"的角色,通過結構化整理專業知識來賦能AI。李也強調,真正的專家型SRE將因為能"帶AI小弟"而價值倍增。
在數據質量治理方面,專家們一致認為"垃圾進,垃圾出"的定律在AI時代被顯著放大。李也指出需要明確數據字段含義、篩選有價值的信息,董善東提出要從"人容易使用數據"、"AI容易讀懂數據"、"平臺內各處容易聯動跳轉"三個維度進行治理。王亞普強調,在大模型時代,語義標注的完整性甚至比格式統一更為重要,高質量的數據是一切智能分析的基礎。
關于未來3-5年可觀測性的理想圖景,王亞普設想可觀測平臺將進化為"智能生命體",能夠完成智能化的日常巡檢和預測性洞察。董善東認為系統將能夠自動值守告警群,實現夜間無人值守。專家們普遍認為,三到五年內實現"半自治"運維是可行的,但要達到完全自治仍面臨黑天鵝事件、信任、安全等諸多挑戰。











