近日,豆包大模型家族迎來重要更新——其首款具備工具調用能力的視覺深度思考模型1.6-vision正式亮相。該模型在多模態理解和推理能力上實現突破,不僅支持圖像定位、剪裁、點選等精細操作,還能通過模擬人類視覺認知過程完成復雜圖像處理任務。
據技術團隊介紹,1.6-vision模型創新性地將圖像處理融入思維鏈,實現了從全局掃描到局部聚焦的漸進式推理。這種設計使模型能夠像人類一樣先把握整體結構,再聚焦關鍵細節,在提升操作精準度的同時增強了推理過程的可解釋性。例如在醫療影像分析場景中,模型可先識別器官整體形態,再精準定位病變區域。
在開發效率方面,該模型通過Responses API接口實現了工具調用自動化。開發者無需編寫大量代碼即可完成圖像處理功能集成,據實測數據顯示,Agent開發環節的代碼量較傳統方式減少約60%。這種低代碼開發模式顯著降低了多模態應用的開發門檻。
成本優化是本次升級的另一大亮點。與前代視覺理解模型Doubao-1.5-thinking-vision-pro相比,1.6-vision在保持同等性能的前提下,將綜合使用成本降低了約50%。這主要得益于模型架構的優化和推理效率的提升,使得單位算力能夠處理更復雜的視覺任務。
目前,該模型已開放商業應用接口,支持包括工業質檢、智慧零售、文檔分析在內的多領域場景。技術文檔顯示,模型可處理最大8K分辨率的圖像輸入,支持30余種圖像操作指令,在標準測試集上的物體識別準確率達到98.7%,操作指令執行成功率超過95%。