北京舉辦“2025百度十大科技前沿發(fā)明”發(fā)布會,展示AI領域突破性成果。此次發(fā)布的十大發(fā)明涵蓋大模型、深度學習框架、AI算力、智能體、AI搜索、數(shù)字人、無人駕駛等核心方向,構建起覆蓋“算力-框架-模型-場景”的全棧技術體系,為AI應用從實驗室走向規(guī)模化落地提供關鍵支撐。
在基礎架構層面,百度推出“從芯片到集群的跨層級訓推一體AI基建系統(tǒng)性技術”,通過UltraServer柜級超節(jié)點架構、XPULink高速通信協(xié)議及PD分離計算模式,實現(xiàn)算力8倍帶寬提升與MoE模型5-10倍性能躍升。存儲系統(tǒng)采用自適應元數(shù)據(jù)架構,突破千億級文件管理瓶頸,配合彈性eRDMA網(wǎng)絡技術,將集群時延壓縮至4微秒,支撐5000節(jié)點分鐘級自愈能力。該技術已應用于文心大模型訓練,使萬卡集群任務有效率突破98%,達到國際領先水平。
多模態(tài)技術實現(xiàn)重大突破。新一代“自回歸統(tǒng)一建模的原生多模態(tài)大模型”構建業(yè)界首個語言、圖像、視頻、音頻統(tǒng)一框架,支持任意模態(tài)混合理解與生成。配套研發(fā)的獎勵系統(tǒng)通過多環(huán)境強化學習,使模型并發(fā)能力提升40%,響應延遲降低35%。在應用端,“劇本驅(qū)動的高說服力數(shù)字人技術”集成可控視頻生成、超擬真唇形驅(qū)動等四大核心能力,打造的羅永浩雙數(shù)字人直播間單場GMV超5500萬元,驗證技術商業(yè)化潛力。
搜索領域,“基于多智能體協(xié)同的AI搜索引擎”采用Master-Planner-Executor-Generator四層架構,模擬人類信息處理全流程。該技術支撐文心助手實現(xiàn)復雜問題拆解、富媒體呈現(xiàn)等能力,使日活用戶增長27%,用戶留存率提升19%。同時開放賦能合作伙伴,推動搜索行業(yè)進入智能體協(xié)同時代。
在內(nèi)容生成領域,“蒸汽機音視頻一體化生成大模型”首創(chuàng)中文場景有聲一體化訓練技術,支持分鐘級多人互動視頻生成。通過LatentMultiModalPlanner重構生成邏輯,將影視制作成本降低70%,已應用于商業(yè)內(nèi)容生產(chǎn)、搜索妙筆等業(yè)務,并對外輸出長視頻實時交互能力,引領行業(yè)進入“雙向共創(chuàng)”階段。
自動駕駛技術取得實質(zhì)性進展。“兼容端到端軌跡方案的橫縱聯(lián)合控制技術”通過線性時變模型預測控制,使低速橫向晃動優(yōu)化70%,彎道抽動問題完全消除。該技術支撐蘿卜快跑在香港、迪拜等16城落地,累計服務超1400萬次,安全行駛里程突破2億公里,為全球化布局奠定技術基礎。
開發(fā)工具鏈方面,“基于智能體的自進化應用生成技術”構建需求-代碼-創(chuàng)意三重學習架構,實現(xiàn)純無代碼應用生成38萬個,開發(fā)成本從2萬元降至50元以下。配合“飛槳科學計算高效求解技術”在微分方程領域的突破,已助力中科院、中車集團等近20家機構完成空氣動力學仿真等創(chuàng)新應用,推動AI for Science范式轉(zhuǎn)型。







