當普通AI助手還在為用戶提供簡單信息時,一個名為Fathom-DeepResearch的新型AI系統已展現出深度調查能力。這項由研究團隊開發的技術突破,讓AI能夠像專業偵探般進行多輪信息挖掘,最終形成結構化的深度研究報告。該系統通過兩個協同工作的模型,解決了傳統AI在處理復雜問題時的三大痛點:淺嘗輒止的搜索、重復無效的提問以及缺乏深度的分析。
研究團隊設計的Fathom-Search-4B模型,專門負責網絡世界的深度探索。與傳統AI不同,它不會在找到幾條表面信息后就停止搜索,而是能夠進行20多輪的持續調查。這個模型通過特殊訓練方法,學會了何時深入挖掘、何時轉換角度、何時交叉驗證信息。研究顯示,在WebWalker測試中,該模型達到了50%的準確率,遠超大多數現有系統20%以下的水平。
要訓練出這樣具備深度調查能力的AI,研究團隊開發了創新的技術方案。他們創建了包含約5000個問題的DUETQA數據集,每個問題都需要通過實時網絡搜索才能解答。更巧妙的是,研究團隊采用多智能體自我對弈的方法生成訓練數據:一個模型負責設計復雜問題,另一個模型嘗試解決這些問題。這種方法確保每個訓練案例都必須依賴最新網絡信息,無法通過AI的固有知識解決。
在訓練過程中,研究團隊設置了三重保險機制來保證數據質量。兩個具備搜索能力的AI模型必須都能通過網絡找到正確答案,而第三個沒有搜索能力的模型則必須失敗。這種驗證方式就像讓不同偵探獨立調查同一個案件,只有當有搜索能力的偵探都能破案,而沒有搜索能力的偵探無法破案時,這個案例才會被納入訓練集。
針對多輪對話訓練的技術難題,研究團隊開發了RAPO訓練方法。這種方法通過三重安全網機制穩定訓練過程:課程剪枝機制讓AI在掌握某些問題后暫時移除這類問題,專注于更困難的任務;優勢縮放機制自動放大有效學習信號的重要性,確保AI能從稀少反饋中學習;回放緩沖機制保存成功解答案例,在AI完全失敗時提供安全路線圖。這些創新解決了傳統強化學習在處理長序列任務時的"梯度崩潰"問題。
在frameS測試中,系統達到了64.8%的準確率,顯著超越其他開源競爭者。更令人驚喜的是,這種深度搜索能力的訓練不僅提升了搜索任務表現,還增強了AI在其他類型推理任務上的能力。在數學推理、科學問答和醫學知識測試中,系統都展現出令人滿意的水平,證明了深度搜索訓練對整體智能水平的提升作用。
研究團隊開發的認知行為分類系統,能夠實時分析AI的每個搜索動作屬于哪種認知行為。這個獎勵機制就像經驗豐富的導師,當AI進行有價值探索時給予積極獎勵,當AI陷入重復勞動時給予負面反饋,當AI找到正確答案但過程冗余時,則在獎勵正確性的同時懲罰低效行為。研究人員可以通過調整參數控制AI的行為傾向,使其適應不同類型的調查任務。
在實際應用中,這套系統展現出廣泛潛力。商業領域可用其進行市場研究和競爭分析,學術研究可借助其快速收集整理文獻,新聞媒體可依賴其高效收集驗證信息,法律行業可利用其進行案例研究和法條分析。對于普通用戶,這意味著將擁有一個真正智能的個人研究助理,在購買決策、學習新知識或了解復雜議題時,都能獲得深入全面的信息支持。
盡管取得顯著成果,研究團隊也指出系統存在的局限性。在面對超出訓練范圍的極端復雜問題時,系統性能提升有限。目前的訓練方法依賴同步訓練流程,大規模應用時可能面臨效率瓶頸。系統的安全性和可控性仍需改進,特別是在面對惡意使用或極端情況時,如何確保系統安全運行是需要持續關注的問題。
這個能夠進行深度網絡搜索和信息綜合的AI系統,代表了AI助手發展的重要方向。它不再滿足于提供簡單問答服務,而是成為真正的智能研究伙伴。通過解決訓練數據生成、多輪對話穩定和精確行為控制等技術難題,這項研究為AI的全面發展貢獻了有價值的方法和工具,展示了AI作為知識探索者和創造者的新可能性。











