昆侖萬維近日宣布推出輕量級多模態智能體Skywork R1V4-Lite,這款模型突破傳統視覺模型局限,將圖像操作、深度推理與任務規劃能力整合于統一架構中,為開放式交互場景提供全新解決方案。其核心突破在于通過"圖像操作×深度推理"的交織訓練范式,使輕量級模型也能實現接近頂級閉源模型的性能表現。
在真實場景應用中,該模型展現出突破性能力:用戶僅需拍攝照片,系統即可自動完成圖像旋轉校正、多級放大讀取模糊文字、繪制幾何輔助線驗證空間關系等復雜操作。例如在電商場景中,模型能通過商品圖片自動溯源,提供跨平臺比價信息與詳細參數說明。這種"即時多模態洞察"能力,使模型從被動響應轉向主動探索,形成"觀察-操作-推理-驗證"的完整閉環。
技術評測數據顯示,Skywork R1V4-Lite在8個多模態基準測試中整體超越Gemini 2.5 Flash,其中5項任務達到Gemini 2.5 Pro水平。在mm-search和FVQA等深度研究任務中,分別以66分和67分顯著領先對手。這種性能優勢源于其獨特的訓練架構:通過構建推理腳手架實現跨模態知識融合,將搜索結果與視覺推理形成閉環驗證,使模型具備跨領域知識擴展能力。
該模型的創新性體現在三大技術突破:首先,開發出主動式視覺操作系統,能根據任務需求自動執行裁切、旋轉、放大等操作,構建可回溯的視覺行動鏈;其次,集成多模態深度研究模塊,支持聯網搜索與外部工具調用,形成"搜索-推理-驗證"的增強循環;最后,實現視覺驅動的任務規劃能力,可將單張圖像轉化為可執行的多輪任務鏈,包含任務分解、工具選擇、參數生成等系統級規劃功能。
工程優化方面,模型在參數規模、響應速度與處理效率間取得平衡。實測數據顯示,其響應延遲僅為Gemini 2.5 Pro的1/19,Token吞吐量達后者2倍,端到端任務完成速度比Gemini 2.5 Flash快1.7倍。這種特性使其特別適合移動端部署、實時問答、視覺檢索等高并發場景,在保持極低運營成本的同時,支持每秒數千次的推理請求。
昆侖萬維技術團隊透露,Skywork R1V4-Lite的成功驗證了"能力密度優先"的開發理念。通過優化模型結構與訓練范式,在70億參數規模下實現了傳統大模型需要千億參數才能達到的功能集成度。這種技術路線不僅降低了部署門檻,更為多模態智能體的規模化應用開辟了新路徑。據悉,其升級版R1V4-Pro已進入最終測試階段,將在多模態交互復雜度與工具調用深度上實現進一步突破。











