火山引擎近日宣布,豆包大模型家族迎來重要更新,正式推出具備工具調用能力的視覺深度思考模型——豆包大模型1.6-vision。這款模型通過強化多模態交互能力,在視覺理解與推理領域實現突破性進展,能夠以更高性價比滿足企業級用戶對圖像精準處理的復雜需求。
作為豆包大模型系列首款支持工具調用的視覺模型,1.6-vision版本創新性地將圖像處理指令融入思維鏈。該模型可模擬人類視覺認知模式,從全局圖像掃描逐步聚焦至局部細節,實現對圖片的定位、裁剪、要素點選、線條標注、縮放旋轉等精細化操作。這種類人推理機制不僅提升了操作的可解釋性,更顯著提高了圖像處理的效率與準確性。
技術升級帶來顯著成本優化。對比前代Doubao-1.5-thinking-vision-pro模型,新版本綜合使用成本降低約50%。在32K輸入輸出場景下,單次處理費用從5.25元降至2.6元,為企業大規模部署視覺智能應用提供了更具競爭力的解決方案。
此次更新延續了豆包大模型的技術演進路線。今年6月推出的1.6版本已通過多模態思考能力強化對復雜場景的理解,此次視覺深度思考模型的發布,標志著該系列在跨模態交互領域形成更完整的技術矩陣。通過持續迭代,火山引擎正逐步構建覆蓋文本、圖像、視頻等多維度的智能處理體系。











