在人工智能領(lǐng)域,大模型之間的競(jìng)爭(zhēng)愈發(fā)激烈,用戶對(duì)模型的期待也水漲船高。如今,僅憑單一優(yōu)勢(shì)已難以脫穎而出,要么在性能上實(shí)現(xiàn)斷層領(lǐng)先,要么能帶來前所未有的創(chuàng)新體驗(yàn)。近期,豆包手機(jī)助手的發(fā)布便引發(fā)了廣泛關(guān)注,其多功能性與出色表現(xiàn),讓不少人對(duì)“AI手機(jī)”的設(shè)想有了更真切的感受。
趁熱打鐵,豆包在火山引擎的FORCE大會(huì)上,推出了全新的基礎(chǔ)模型——豆包大模型1.8。這一新模型的優(yōu)化方向十分明確,其目標(biāo)不止于打造更強(qiáng)的聊天模型,而是致力于成為通用且面向真實(shí)世界的Agent代理。
豆包團(tuán)隊(duì)在技術(shù)報(bào)告中展現(xiàn)出了難得的坦誠(chéng)。在基礎(chǔ)跑分環(huán)節(jié),對(duì)于表現(xiàn)不及競(jìng)爭(zhēng)對(duì)手的項(xiàng)目,他們?nèi)鐚?shí)呈現(xiàn),不夸大、不回避。在編程(LiveCodeBench)、高難數(shù)學(xué)(AIME)以及硬核科學(xué)推理等領(lǐng)域,Google的Gemini 3-Pro目前仍是行業(yè)標(biāo)桿,豆包大模型1.8在這些方面確實(shí)稍顯遜色。然而,這種“遜色”并非毫無亮點(diǎn),其含金量不容小覷。
在Agent能力測(cè)試中,豆包實(shí)現(xiàn)了對(duì)Gemini的反超。在GAIA測(cè)試(模擬日常任務(wù)執(zhí)行)和BrowseComp測(cè)試(網(wǎng)上資料搜集)中,豆包新模型均取得了優(yōu)異成績(jī)。尤其值得一提的是,在搜集英文資料(BrowseComp-en)方面,作為中國(guó)公司推出的大模型,豆包的表現(xiàn)遠(yuǎn)超GPT、Gemini、Claude等外國(guó)公司的產(chǎn)品,這一成績(jī)令人矚目。
為了更直觀地感受豆包新模型的實(shí)際能力,我們進(jìn)行了一系列測(cè)試。借助字節(jié)今年開源的Agent TARS框架,我們將豆包1.8新模型的API接入其中,嘗試讓其完成一些實(shí)際任務(wù)。例如,我們讓豆包協(xié)助完成多鄰國(guó)的打卡任務(wù)。只需簡(jiǎn)單描述需求,豆包便能在瀏覽器中自動(dòng)找到多鄰國(guó)網(wǎng)址,在手動(dòng)登錄賬號(hào)后,它開始識(shí)別屏幕,逐步思考并完成任務(wù)。整個(gè)過程中,我們可以實(shí)時(shí)看到豆包的思考路徑,如在完成選擇后,它會(huì)主動(dòng)尋找下一步的任務(wù)按鈕。
盡管任務(wù)執(zhí)行耗時(shí)約16分鐘,速度不算快,但由于其在后臺(tái)運(yùn)行,不影響其他操作,因此這一缺點(diǎn)并不影響其實(shí)用性。我們還讓豆包自動(dòng)總結(jié)與具身智能相關(guān)的新聞并保存到本地,甚至詢問電腦型號(hào)和存儲(chǔ)空間剩余情況,它都能通過命令行查詢基礎(chǔ)信息,并以通俗易懂的語言反饋給我們。
豆包新模型的能力提升,源于多方面的技術(shù)優(yōu)化。一方面,它不斷強(qiáng)化對(duì)圖像的理解能力。Seed1.8在同一接口中支持搜索、代碼生成與執(zhí)行以及GUI交互,檢索到的信息、代碼運(yùn)行結(jié)果和界面狀態(tài)都會(huì)納入下一步?jīng)Q策,形成閉環(huán)。團(tuán)隊(duì)深知,真實(shí)環(huán)境中Agent能獲取的信息多為截圖、文字、圖標(biāo)和按鈕,因此模型對(duì)屏幕的理解能力直接決定了任務(wù)完成度。
另一方面,豆包的“記性”也得到了顯著增強(qiáng)。視覺理解能力提升后,模型一次性理解的幀數(shù)翻倍。假設(shè)每六秒截一次屏幕,豆包能一口氣理解一小時(shí)內(nèi)的電腦操作記錄。它還能邊看視頻邊調(diào)用工具,實(shí)現(xiàn)視頻的反復(fù)回看。例如,官網(wǎng)展示的例子中,模型先快速瀏覽整個(gè)視頻,再通過VIDEOCUT工具仔細(xì)回看關(guān)鍵片段,以加深理解。我們測(cè)試時(shí),上傳了一段高速公路上車輛行駛的視頻,讓豆包統(tǒng)計(jì)黃色車輛數(shù)量,它不僅準(zhǔn)確找到了黃車,還標(biāo)記了出現(xiàn)時(shí)間。
豆包團(tuán)隊(duì)還特別關(guān)注模型“聽人話”的能力。針對(duì)大模型有時(shí)難以理解復(fù)雜指令的問題,他們進(jìn)行了針對(duì)性優(yōu)化。例如,在Inverse IFeval測(cè)試集中,設(shè)計(jì)了許多“反直覺”題目。以一道類似雞兔同籠的問題為例,題目問籠子里有幾種動(dòng)物,答案顯然是兩種,但這一簡(jiǎn)單問題卻難倒了GPT,而豆包經(jīng)過思考后給出了正確答案。
豆包1.8的模型兼容性也表現(xiàn)出色。近年來,通過命令行控制電腦的AI工具層出不窮,其效果取決于任務(wù)拆解能力和模型實(shí)力。豆包在不同框架下的代碼通過率穩(wěn)定在64.8%至72.9%之間,顯示出其不挑工作環(huán)境的強(qiáng)大適應(yīng)性。
隨著模型基礎(chǔ)能力的不斷提升,各AI廠商對(duì)AI發(fā)展的理解差異也逐漸顯現(xiàn)。Anthropic認(rèn)為代碼即智能,DeepSeek堅(jiān)持?jǐn)?shù)學(xué)即智能,谷歌則強(qiáng)調(diào)理解即智能,而豆包的思路十分明確——Agent即智能。模型能力越強(qiáng),越能操縱現(xiàn)實(shí)世界中的互聯(lián)網(wǎng),便越接近AGI的目標(biāo)。
在豆包大模型的發(fā)布會(huì)上,一組數(shù)據(jù)引發(fā)了熱議:目前,豆包大模型的日均使用量已達(dá)50萬億tokens,較去年剛發(fā)布時(shí)增長(zhǎng)了417倍。這一數(shù)字不僅體現(xiàn)了AI發(fā)展的迅猛勢(shì)頭,也反映出各行業(yè)對(duì)AI的旺盛需求。在AI浪潮中,誰能更好地滿足實(shí)際需求,誰便能在競(jìng)爭(zhēng)中占據(jù)先機(jī)。










