百度今日宣布,正式開源其新一代多模態思考模型ERNIE-4.5-VL-28B-A3B-Thinking。這款輕量級模型僅激活3B參數,卻在視覺語言理解、跨模態推理及工具調用等關鍵領域實現突破性進展,多項基準測試成績接近當前行業頂尖水平。
該模型基于ERNIE-4.5-VL-28B-A3B架構優化,通過引入海量高質量視覺語言數據訓練,顯著提升了文本與視覺模態間的語義對齊能力。研發團隊采用GSPO與IcePop策略穩定混合專家結構(MoE),配合動態難度采樣機制,使模型在保持輕量化的同時具備高效學習能力。大規模多模態強化學習技術的運用,進一步優化了任務執行效果。
核心創新之一是"圖像思考"交互機制的引入。用戶可在圖像上自由縮放焦點區域,結合圖像搜索等工具快速獲取關聯信息。這項能力特別適用于處理長尾視覺知識、細節識別等復雜場景。例如在公共交通圖表分析中,模型能準確識別不同時段的客流高峰,并推理出最優出行方案。
模型的空間定位能力獲得顯著增強。通過優化指令遵循機制與定位觸發邏輯,用戶可更精準地控制視覺定位功能,實現從語義描述到圖像坐標的直接轉換。在STEM學科解題場景中,模型能識別上傳的電路圖結構,精確計算等效電阻值。
工具調用系統實現智能化升級。模型可根據圖像環境動態決策是否調用外部工具,形成高效的信息獲取鏈條。在視覺定位任務中,模型能識別并標注穿西裝戴禮帽的人物位置,通過邊界框可視化輸出定位結果。配合"圖像思考"能力,模型還可聚焦圖像細節區域,識別隱藏的IP角色特征后自動調用搜索工具補充信息。
視頻理解領域同樣展現突破。模型具備分析廣告視頻內容變化的能力,可精準定位不同時段的內容切換點,輔助關鍵片段提取與結構化分析。這些能力組合使模型能完成從簡單圖像解析到復雜視頻分析的全鏈條任務。
測試數據顯示,該模型在圖表解析、學科解題、人物定位、視頻分析等場景中均保持高完成度。其輕量化設計(僅3B激活參數)與多場景適應性,為開發者構建具備感知與執行能力的多模態智能體提供了全新選擇。隨著工具鏈的持續完善,這類模型有望在真實環境中承擔更多感知判斷與交互任務。





