在人工智能領域,一場由前Google DeepMind成員掀起的技術革新正引發廣泛關注。這支6人團隊成立的新公司Poetiq,通過構建元系統重新定義了大模型的應用方式,在復雜推理任務中展現出突破性表現。其研發的Gemini 3 Pro優化技術在ARC-AGI-2基準測試中以54%的準確率登頂排行榜,同時將計算成本壓縮至行業最優水平的一半。
這個技術團隊雖成立不足一年,卻匯聚了來自DeepMind的資深專家,累計擁有53年人工智能研發經驗。他們選擇了一條與眾不同的技術路徑:不追求構建更大規模的模型,而是專注于開發能夠智能調度現有模型的元系統。這種創新架構使系統能夠自動生成針對特定任務的解決方案,通過組合不同模型的優勢實現性能突破。
在12月8日公布的官方驗證結果中,Poetiq系統在ARC-AGI-2半私有評估集上創造了新紀錄。其純Gemini配置方案以每題30.57美元的成本達成54%準確率,相比前紀錄保持者Gemini 3 Deep Think(77.16美元/45%)實現雙重超越。更引人注目的是,該系統在公共數據集上構建的帕累托前沿,同時推進了準確率與成本效率的邊界。
技術核心在于其遞歸式元系統架構。該系統通過多輪交互實現自我優化:首先生成初步解決方案,再根據反饋持續改進,最終形成可靠答案。這種自我監控機制能夠智能判斷何時終止計算,有效避免算力浪費。測試數據顯示,基于Grok-4-Fast的配置在保持高準確率的同時,成本比原始模型降低兩個數量級;而開源模型GPT-OSS-120B的衍生方案,甚至實現了單題成本低于1美分的突破。
該系統的適應性在跨模型測試中得到充分驗證。當應用于ChatGPT、Claude Haiku、Gemini等12個主流模型時,Poetiq均實現了準確率與成本的雙重優化。這種表現源于其完全基于大語言模型的架構設計——從系統構建到運行監控,整個流程均由模型自主完成。這種遞歸式強化機制,使得系統能夠快速整合新模型的能力,在Gemini 3和GPT-5.1發布后數小時內即完成適配并取得領先成績。
選擇ARC-AGI作為測試場源于其對復雜推理能力的嚴苛考驗。該基準測試要求模型具備抽象推理、歸納總結和策略生成能力,恰好對應Poetiq系統的優勢領域。通過讓模型自主發現最優推理路徑,系統能夠在預算、算力等現實約束下,持續優化解決方案。這種設計理念在測試中得到充分驗證:系統在處理多樣化任務時展現出強大的自適應能力,能夠根據任務特性動態調整模型組合策略。
技術團隊透露,其開源配置旨在證明智能的本質不在于提示詞工程,而在于構建能夠自我進化的系統。通過多步驟驗證和自我檢查機制,系統能夠逐步打磨解決方案,這種運行模式突破了傳統大模型對提示詞的依賴。隨著任務多樣性的增加,元系統的進化速度將進一步提升,為生成式AI在復雜場景的應用開辟新路徑。











