人工智能領域迎來重要突破,階躍星辰團隊正式開源其最新研發的GELab-Zero項目,為移動端智能體開發提供全新解決方案。該項目包含4B參數的GUI Agent模型、完整的本地化推理基礎設施以及面向真實場景的評測標準,旨在降低消費級智能體的開發門檻,推動AI技術在終端設備上的規模化應用。
核心模型GELab-Zero-4B-preview在多個基準測試中表現優異,不僅在ScreenSpot、OSWorld等傳統GUI評測中刷新同尺寸模型紀錄,更在基于真實業務場景構建的AndroidDaily評測體系中取得73.4%的準確率。該模型突破性地實現了在消費級硬件上運行,其輕量化設計使4B參數模型即可達到32B參數模型的性能水平,同時保持更低的部署成本和更快的響應速度。
技術架構方面,項目團隊構建了完整的智能體開發工具鏈。開發者可通過統一部署流水線自動處理設備連接、權限配置等底層操作,支持多設備任務分發與交互軌跡記錄。系統提供ReAct閉環推理、多智能體協作等四種工作模式,并配備可視化調試界面,使開發者能夠專注于交互策略創新而非基礎設施搭建。這種"開箱即用"的設計理念,使單個開發者即可在數小時內完成從模型部署到復雜任務驗證的全流程。
針對移動生態碎片化難題,研究團隊提出創新解決方案。通過動態環境適配技術,模型可自動識別不同品牌設備的界面布局差異,在華為、小米、OPPO等主流機型上實現跨平臺兼容。在復雜任務處理方面,模型展現出強大的泛化能力:既能準確執行"購買300g紅顏草莓和125g藍莓"等精確指令,也能理解"找部成龍經典動作片"等模糊需求,通過自主拆解任務步驟、評估選項優先級完成操作。
AndroidDaily評測體系的建立標志著行業評估標準的重大革新。該體系覆蓋飲食、出行、購物等六大生活場景,選取外賣、打車、社交等高頻應用構建測試任務庫。每個任務均包含真實用戶交互流程,如支付環節需要模擬輸入密碼、高危操作要求人工確認等。這種設計使評測結果更貼近實際應用環境,為模型優化提供可靠依據。靜態評測與端到端測試的雙軌機制,既保證評估效率又兼顧執行穩定性,其中端到端測試任務成功率直接反映模型在真實場景中的綜合能力。
開源項目包含完整的代碼庫、預訓練模型和詳細文檔,支持通過GitHub和Hugging Face平臺獲取。技術文檔詳細說明模型訓練方法、推理優化技巧和跨平臺部署指南,并提供外賣采購、福利領取等典型場景的完整代碼示例。這種開放共享模式將加速智能體技術在移動端的普及,預計將催生更多創新應用場景。
項目團隊透露,后續開發將聚焦三個方向:提升模型在低算力設備上的運行效率,擴展車載系統、IoT設備等新平臺支持,以及構建開發者生態社區。通過持續優化模型架構和工具鏈,團隊致力于打造面向消費級市場的通用智能體解決方案,使AI技術真正融入日常生活服務。







