滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

豆包1.8新模型發(fā)力：從屏幕理解到現(xiàn)實(shí)操控，AI“干活”新突破？

時(shí)間：2025-12-20 15:36:35 來源：快訊編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

在人工智能領(lǐng)域，大模型之間的競(jìng)爭(zhēng)愈發(fā)激烈，用戶對(duì)模型的期待也水漲船高。如今，僅憑單一優(yōu)勢(shì)已難以脫穎而出，要么在性能上實(shí)現(xiàn)斷層領(lǐng)先，要么能帶來前所未有的創(chuàng)新體驗(yàn)。近期，豆包手機(jī)助手的發(fā)布便引發(fā)了廣泛關(guān)注，其多功能性與出色表現(xiàn)，讓不少人對(duì)“AI手機(jī)”的設(shè)想有了更真切的感受。

趁熱打鐵，豆包在火山引擎的FORCE大會(huì)上，推出了全新的基礎(chǔ)模型——豆包大模型1.8。這一新模型的優(yōu)化方向十分明確，其目標(biāo)不止于打造更強(qiáng)的聊天模型，而是致力于成為通用且面向真實(shí)世界的Agent代理。

豆包團(tuán)隊(duì)在技術(shù)報(bào)告中展現(xiàn)出了難得的坦誠(chéng)。在基礎(chǔ)跑分環(huán)節(jié)，對(duì)于表現(xiàn)不及競(jìng)爭(zhēng)對(duì)手的項(xiàng)目，他們?nèi)鐚?shí)呈現(xiàn)，不夸大、不回避。在編程（LiveCodeBench）、高難數(shù)學(xué)（AIME）以及硬核科學(xué)推理等領(lǐng)域，Google的Gemini 3-Pro目前仍是行業(yè)標(biāo)桿，豆包大模型1.8在這些方面確實(shí)稍顯遜色。然而，這種“遜色”并非毫無亮點(diǎn)，其含金量不容小覷。

在Agent能力測(cè)試中，豆包實(shí)現(xiàn)了對(duì)Gemini的反超。在GAIA測(cè)試（模擬日常任務(wù)執(zhí)行）和BrowseComp測(cè)試（網(wǎng)上資料搜集）中，豆包新模型均取得了優(yōu)異成績(jī)。尤其值得一提的是，在搜集英文資料（BrowseComp-en）方面，作為中國(guó)公司推出的大模型，豆包的表現(xiàn)遠(yuǎn)超GPT、Gemini、Claude等外國(guó)公司的產(chǎn)品，這一成績(jī)令人矚目。

為了更直觀地感受豆包新模型的實(shí)際能力，我們進(jìn)行了一系列測(cè)試。借助字節(jié)今年開源的Agent TARS框架，我們將豆包1.8新模型的API接入其中，嘗試讓其完成一些實(shí)際任務(wù)。例如，我們讓豆包協(xié)助完成多鄰國(guó)的打卡任務(wù)。只需簡(jiǎn)單描述需求，豆包便能在瀏覽器中自動(dòng)找到多鄰國(guó)網(wǎng)址，在手動(dòng)登錄賬號(hào)后，它開始識(shí)別屏幕，逐步思考并完成任務(wù)。整個(gè)過程中，我們可以實(shí)時(shí)看到豆包的思考路徑，如在完成選擇后，它會(huì)主動(dòng)尋找下一步的任務(wù)按鈕。

盡管任務(wù)執(zhí)行耗時(shí)約16分鐘，速度不算快，但由于其在后臺(tái)運(yùn)行，不影響其他操作，因此這一缺點(diǎn)并不影響其實(shí)用性。我們還讓豆包自動(dòng)總結(jié)與具身智能相關(guān)的新聞并保存到本地，甚至詢問電腦型號(hào)和存儲(chǔ)空間剩余情況，它都能通過命令行查詢基礎(chǔ)信息，并以通俗易懂的語言反饋給我們。

豆包新模型的能力提升，源于多方面的技術(shù)優(yōu)化。一方面，它不斷強(qiáng)化對(duì)圖像的理解能力。Seed1.8在同一接口中支持搜索、代碼生成與執(zhí)行以及GUI交互，檢索到的信息、代碼運(yùn)行結(jié)果和界面狀態(tài)都會(huì)納入下一步?jīng)Q策，形成閉環(huán)。團(tuán)隊(duì)深知，真實(shí)環(huán)境中Agent能獲取的信息多為截圖、文字、圖標(biāo)和按鈕，因此模型對(duì)屏幕的理解能力直接決定了任務(wù)完成度。

另一方面，豆包的“記性”也得到了顯著增強(qiáng)。視覺理解能力提升后，模型一次性理解的幀數(shù)翻倍。假設(shè)每六秒截一次屏幕，豆包能一口氣理解一小時(shí)內(nèi)的電腦操作記錄。它還能邊看視頻邊調(diào)用工具，實(shí)現(xiàn)視頻的反復(fù)回看。例如，官網(wǎng)展示的例子中，模型先快速瀏覽整個(gè)視頻，再通過VIDEOCUT工具仔細(xì)回看關(guān)鍵片段，以加深理解。我們測(cè)試時(shí)，上傳了一段高速公路上車輛行駛的視頻，讓豆包統(tǒng)計(jì)黃色車輛數(shù)量，它不僅準(zhǔn)確找到了黃車，還標(biāo)記了出現(xiàn)時(shí)間。

豆包團(tuán)隊(duì)還特別關(guān)注模型“聽人話”的能力。針對(duì)大模型有時(shí)難以理解復(fù)雜指令的問題，他們進(jìn)行了針對(duì)性優(yōu)化。例如，在Inverse IFeval測(cè)試集中，設(shè)計(jì)了許多“反直覺”題目。以一道類似雞兔同籠的問題為例，題目問籠子里有幾種動(dòng)物，答案顯然是兩種，但這一簡(jiǎn)單問題卻難倒了GPT，而豆包經(jīng)過思考后給出了正確答案。

豆包1.8的模型兼容性也表現(xiàn)出色。近年來，通過命令行控制電腦的AI工具層出不窮，其效果取決于任務(wù)拆解能力和模型實(shí)力。豆包在不同框架下的代碼通過率穩(wěn)定在64.8%至72.9%之間，顯示出其不挑工作環(huán)境的強(qiáng)大適應(yīng)性。

隨著模型基礎(chǔ)能力的不斷提升，各AI廠商對(duì)AI發(fā)展的理解差異也逐漸顯現(xiàn)。Anthropic認(rèn)為代碼即智能，DeepSeek堅(jiān)持?jǐn)?shù)學(xué)即智能，谷歌則強(qiáng)調(diào)理解即智能，而豆包的思路十分明確——Agent即智能。模型能力越強(qiáng)，越能操縱現(xiàn)實(shí)世界中的互聯(lián)網(wǎng)，便越接近AGI的目標(biāo)。

在豆包大模型的發(fā)布會(huì)上，一組數(shù)據(jù)引發(fā)了熱議：目前，豆包大模型的日均使用量已達(dá)50萬億tokens，較去年剛發(fā)布時(shí)增長(zhǎng)了417倍。這一數(shù)字不僅體現(xiàn)了AI發(fā)展的迅猛勢(shì)頭，也反映出各行業(yè)對(duì)AI的旺盛需求。在AI浪潮中，誰能更好地滿足實(shí)際需求，誰便能在競(jìng)爭(zhēng)中占據(jù)先機(jī)。

而“廬山”則是花港架構(gòu)的第二款芯片，主打高性能圖形渲染場(chǎng)景，得益于花港架構(gòu)的新一代指令集，算力密度提升 50%，能效提升 10 倍，內(nèi)置第一代AI 生成式渲染架構(gòu)（AGR）、第二代光追硬件加速引擎，完美支…

12-20

摩爾線程首發(fā)長(zhǎng)江智能SoC芯片：8大核加持，多場(chǎng)景AI算力達(dá)50TOPS

快科技12月20日消息，在今天的首屆開發(fā)者大會(huì)上，摩爾線程正式發(fā)布了全新長(zhǎng)江智能SoC芯片。 CPU方面長(zhǎng)江智能SoC搭載8個(gè)全大核，主頻最高2.65GHz，全功能GPU支持高性能3D渲染和大模型端側(cè)推理，可…

12-20

摩爾線程發(fā)布“花港”架構(gòu)及“華山”“廬山”芯片硬件新品明年登場(chǎng)

12-20

摩爾線程“長(zhǎng)江”智能SoC芯片亮相：8核大核設(shè)計(jì)，異構(gòu)AI算力達(dá)50TOPS

12-20

QCY N20真無線耳機(jī)京東開啟預(yù)約，13mm動(dòng)圈+50dB降噪僅售129元

12-20

字節(jié)跳動(dòng)聯(lián)合頭部硬件廠商加速AI手機(jī)布局，以“豆包”能力重塑終端體驗(yàn)

12-20

第五代驍龍8至尊版芯片銷量出爐：小米以72%份額占據(jù)絕對(duì)主導(dǎo)

12-20

知名博主羅永浩吐槽上海電信千兆寬帶長(zhǎng)期“縮水”

12-20

雷軍加入戰(zhàn)斗！小米汽車已獲L3級(jí)道路測(cè)試牌照

12-20

挑戰(zhàn)馬斯克Neuralink：奧爾特曼腦機(jī)公司分拆獨(dú)立，要用超聲波“聽”你的想法

12-20

OPPO攜手小紅書揭秘2026影像趨勢(shì)：聚焦真實(shí)瞬間，解鎖五大創(chuàng)作新方向

12-20

羅永浩執(zhí)掌的錘子軟件拓展新版圖上海分公司正式成立

12-20

AI登“機(jī)”浪潮下：豆包與手機(jī)廠商攜手，共探AI手機(jī)新未來

12-20

雅詩蘭黛逆境突圍：戰(zhàn)略調(diào)整顯成效，業(yè)績(jī)股價(jià)雙回暖迎新拐點(diǎn)

12-20

星鏈在軌衛(wèi)星將破萬，中國(guó)加速追趕，衛(wèi)星互聯(lián)網(wǎng)能成主流網(wǎng)絡(luò)嗎？

SpaceX每個(gè)月平均發(fā)射至少240顆星鏈衛(wèi)星，按這個(gè)速度，預(yù)計(jì)到2026年3月，星鏈衛(wèi)星的在軌總數(shù)將突破1萬顆，成為全球首個(gè)衛(wèi)星數(shù)量達(dá)到1萬顆的星座！到目前為止，只有星網(wǎng)和千帆兩個(gè)星座開始了建設(shè)，截至202…

12-20

點(diǎn)擊查看更多 +

全站最新

Lorinser格瑞維亞來襲！外觀動(dòng)感內(nèi)飾優(yōu)，二排似頭等艙，混動(dòng)系統(tǒng)出色

新款寶馬5系旅行版諜照曝光，雙腎格柵保留，或配M Sport套件引期待

全新XC70登場(chǎng)：以成熟實(shí)力破局，重塑豪華新能源競(jìng)爭(zhēng)新格局

寶馬M3純電版ZA0路測(cè)圖曝光：新燈組亮相，800至900馬力性能飛躍

保時(shí)捷718 Boxster純電版第四輪冬測(cè)，研發(fā)超長(zhǎng)周期或遇挑戰(zhàn)

2025浪潮之巔：80后90后創(chuàng)業(yè)者以創(chuàng)新破局，書寫時(shí)代新篇章

熱門內(nèi)容

本欄最新

2025浪潮之巔：80后90后創(chuàng)業(yè)者以創(chuàng)新破局，書寫時(shí)代新篇章

華為乾崑賦能猛士M817，靳玉志親選，開啟豪華智能越野新征程！

日產(chǎn)Serena小改款日本亮相，外觀內(nèi)飾升級(jí)，多種配置滿足多元需求

小米17 Ultra下周登場(chǎng)！強(qiáng)化徠卡合作，頂級(jí)硬件APO長(zhǎng)焦等四大亮點(diǎn)搶先看

小米獲L3級(jí)自動(dòng)駕駛測(cè)試牌照理想調(diào)整供應(yīng)鏈極越發(fā)布債權(quán)申報(bào)指南等車圈動(dòng)態(tài)

高端新能源駕控對(duì)決：星紀(jì)元ES與小米SU7，誰更契合你的出行需求？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

豆包1.8新模型發(fā)力：從屏幕理解到現(xiàn)實(shí)操控，AI“干活”新突破？