在世界互聯網大會烏鎮峰會期間,三六零數字安全集團正式發布《大模型安全白皮書》,為人工智能行業安全發展提供系統性解決方案。該白皮書首次梳理大模型運行中的五大核心安全風險,提出“外筑動態屏障、內固安全底座”的創新防護理念,通過實戰經驗構建覆蓋全鏈路的安全防護體系。
白皮書指出,隨著大模型深度融入百行千業,傳統網絡安全邊界加速消融。2025年國內首次AI大模型實網眾測發現281個安全漏洞,其中大模型特有漏洞占比超60%,攻擊門檻顯著降低,“全民黑客”時代來臨。面對這一態勢,中國探索出“發展與安全并重”的治理路徑,以《生成式人工智能服務管理暫行辦法》為框架,實現技術創新與風險防控的動態平衡。
大模型運行時安全風險呈現多維特征。白皮書系統梳理出基礎設施安全、內容安全、數據與知識庫安全、智能體安全、用戶端安全五大關鍵風險點。其中,智能體失控、API接口濫用、隱私泄露等新型威脅,傳統安全方案難以有效應對。例如,攻擊者可通過自然語言指令繞過常規防護,對模型進行惡意操控。
針對新型威脅,白皮書提出“以模治模”與“平臺原生”雙軌防護策略。前者如同“動態免疫系統”,通過大模型間的對抗訓練實現主動防御;后者則如“基因編碼”,將安全能力深度植入模型架構。四大實施原則——安全防護、向善引導、可信提升、可控管理,構成技術治理的頂層設計。
在技術落地層面,360推出“外掛式+平臺原生”雙軌解決方案。外掛式安全體系包含算力主機防護、檢測系統、防護系統、幻覺緩解四大產品,形成從算力層到內容層的實時監測網絡。平臺原生安全則通過企業級知識庫、智能體運營平臺、智能體客戶端三大產品,解決數據泄露、行為失控等內生性問題。
實戰數據顯示,該體系可有效應對算力劫持、供應鏈投毒等基礎設施風險,以及提示詞注入、模型幻覺等內容風險。例如,在某金融大模型防護中,系統成功攔截97.3%的惡意指令攻擊,幻覺內容發生率降低至0.8%以下。
生態共建成為白皮書強調的另一重點。360深度參與《GB/T 45654-2025網絡安全技術 生成式人工智能服務安全基本要求》制定,與北京大學聯合研發的TinyR1-32B模型在安全能力評估中超越多個主流模型。通過發起大模型安全聯盟,已在工信部人工智能公共服務平臺為100余家企業提供安全測試服務。
這份覆蓋安全邊界演變、威脅全景、防護策略、解決方案及生態共治的五章報告,標志著大模型安全治理進入體系化建設階段。360提出的“安全-向善-可信-可控”發展框架,為行業提供了從理論到實踐的完整路徑,推動人工智能技術向更穩健的方向演進。









