OpenAI近日陷入技術(shù)困境,公司CEO奧特曼向全體員工發(fā)出內(nèi)部備忘錄,宣布進(jìn)入“Code Red”緊急狀態(tài)。這一決策背后,既有谷歌、Anthropic等競(jìng)爭(zhēng)對(duì)手帶來(lái)的直接壓力,也暴露出整個(gè)大語(yǔ)言模型行業(yè)面臨的深層挑戰(zhàn):訓(xùn)練成本飆升、模型規(guī)模擴(kuò)大但性能提升趨緩,技術(shù)發(fā)展似乎撞上了無(wú)形的天花板。
斯坦福大學(xué)發(fā)布的《2025年AI指數(shù)報(bào)告》顯示,2019年至2022年間,訓(xùn)練成本每增加10倍,模型在主流基準(zhǔn)測(cè)試中的性能平均提升25%-35%;但2023年后,同樣成本投入僅能帶來(lái)10%-15%的提升;2024年以來(lái),訓(xùn)練成本翻倍時(shí),性能提升甚至不足5%。這種投入產(chǎn)出比的斷崖式下跌,讓頭部模型的表現(xiàn)逐漸趨同,仿佛集體陷入停滯。
用戶數(shù)據(jù)的變化印證了這一趨勢(shì)。谷歌Gemini 3模型在基準(zhǔn)測(cè)試中超越OpenAI后,月活用戶從7月的4.5億激增至10月的6.5億;Anthropic的Claude在企業(yè)客戶中也頗受歡迎,截至2025年11月末,其周訪問(wèn)量達(dá)0.41億人次,較六周前增長(zhǎng)17.1%。相比之下,OpenAI的領(lǐng)先地位正被削弱。
更嚴(yán)峻的是,OpenAI在核心技術(shù)環(huán)節(jié)遭遇瓶頸。半導(dǎo)體行業(yè)分析公司SemiAnalysis披露,自2024年5月GPT-4o發(fā)布以來(lái),OpenAI的頂尖研究人員未能完成任何大規(guī)模全面預(yù)訓(xùn)練。這意味著GPT-5并非通過(guò)全新訓(xùn)練迭代,而僅是對(duì)GPT-4o的微調(diào)優(yōu)化。預(yù)訓(xùn)練作為模型開(kāi)發(fā)的第一步,需要海量文本數(shù)據(jù)學(xué)習(xí)語(yǔ)言規(guī)律,無(wú)法完成這一環(huán)節(jié)將直接阻礙技術(shù)升級(jí)。MMLU基準(zhǔn)測(cè)試結(jié)果進(jìn)一步佐證了這一點(diǎn):GPT-5的評(píng)分僅比GPT-4提升10%-20%,而其訓(xùn)練成本卻是GPT-4的20-30倍。
面對(duì)雙重壓力,奧特曼在備忘錄中宣布調(diào)整戰(zhàn)略,將資源集中于優(yōu)化現(xiàn)有產(chǎn)品。公司計(jì)劃改進(jìn)ChatGPT的個(gè)性化功能、提升響應(yīng)速度與可靠性、擴(kuò)大問(wèn)題覆蓋范圍,同時(shí)推遲廣告、健康助手、個(gè)人助手等項(xiàng)目的開(kāi)發(fā),鼓勵(lì)員工臨時(shí)調(diào)崗參與核心產(chǎn)品改進(jìn)。此前,OpenAI曾在2025年10月拉響“Code Orange”警報(bào),通過(guò)成立應(yīng)急優(yōu)化小組、調(diào)配50%以上研發(fā)資源聚焦核心業(yè)務(wù)應(yīng)對(duì)競(jìng)爭(zhēng)威脅,但此次“Code Red”的升級(jí)表明局勢(shì)更加嚴(yán)峻。
OpenAI的困境并非個(gè)例。LMSYS Chatbot Arena的盲測(cè)數(shù)據(jù)顯示,2024年6月排名第一與第十的模型Elo評(píng)分差距超過(guò)150分,而到2025年11月,這一差距已收窄至不足50分。主流模型在關(guān)鍵基準(zhǔn)測(cè)試中的得分集中于狹窄區(qū)間,即使投入資源差異巨大,最終性能卻愈發(fā)相似。例如,2023年3月GPT-4在MMLU測(cè)試中得分86.4%,同期競(jìng)爭(zhēng)對(duì)手成績(jī)多在60%-75%之間;但到2025年9月MMLU-Pro測(cè)試中,所有頭部模型得分均集中在85%-90%,幾乎無(wú)差別。模型更新周期也在延長(zhǎng):meta的Llama模型從第二代到第三代間隔約9個(gè)月,第三代到第四代預(yù)計(jì)間隔超15個(gè)月;Anthropic的Claude從第三代到第四代也耗時(shí)11個(gè)月。
學(xué)術(shù)界對(duì)大語(yǔ)言模型的發(fā)展路徑存在激烈爭(zhēng)議。以AI教母李飛飛為代表的學(xué)者認(rèn)為,語(yǔ)言模型僅是AI系統(tǒng)的組件之一,實(shí)現(xiàn)真正智能需結(jié)合不同類型模型。她提出“世界模型”概念,主張通過(guò)觀察視頻、圖像、傳感器數(shù)據(jù)理解物理世界,而非依賴文本統(tǒng)計(jì)規(guī)律。谷歌DeepMind開(kāi)發(fā)的AlphaGeometry已在此方向取得突破,其通過(guò)符號(hào)推理與神經(jīng)網(wǎng)絡(luò)結(jié)合解決奧林匹克幾何問(wèn)題,而非依賴語(yǔ)言模型。圖靈獎(jiǎng)得主楊立昆則直言,語(yǔ)言模型僅是“給鸚鵡喂更大的芯片”,真正的智能需建立對(duì)物體、空間、時(shí)間的因果關(guān)系理解。
另一派以O(shè)penAI和Anthropic為代表。奧特曼堅(jiān)持“規(guī)模假說(shuō)”,認(rèn)為擴(kuò)大模型規(guī)模與數(shù)據(jù)投入將使智能“自動(dòng)涌現(xiàn)”;聯(lián)合創(chuàng)始人蘇茲科維提出“壓縮即理解”,認(rèn)為無(wú)損壓縮全球數(shù)據(jù)可構(gòu)建世界模型;Anthropic聯(lián)合創(chuàng)始人卡普蘭則認(rèn)為語(yǔ)言模型可成為智能基礎(chǔ),通過(guò)改進(jìn)訓(xùn)練方法與結(jié)合其他技術(shù)實(shí)現(xiàn)通用人工智能。然而,MIT學(xué)者在《自然》期刊發(fā)表的研究指出,語(yǔ)言與思維獨(dú)立,嬰兒在學(xué)會(huì)說(shuō)話前已具備物理世界理解能力,盲聾人群的思維能力也不受感官缺失影響,這為語(yǔ)言模型路徑的局限性提供了認(rèn)知科學(xué)依據(jù)。








