OpenAI前首席技術(shù)官米拉·穆拉蒂(Mira Murati)創(chuàng)立的初創(chuàng)公司Thinking Machines,近日正式推出首款A(yù)I工具Tinker。這款專為語言模型開發(fā)者設(shè)計的API,旨在簡化模型微調(diào)流程,讓研究人員能更專注于算法與數(shù)據(jù)優(yōu)化,而無需處理底層基礎(chǔ)設(shè)施的復(fù)雜管理。
該工具支持包括Qwen-235B-A22B在內(nèi)的前沿模型,并采用LoRA(低秩適應(yīng))技術(shù)實現(xiàn)計算資源共享。此前發(fā)布的博客中,Thinking Machines詳細闡述了LoRA在多任務(wù)訓練中的成本優(yōu)化效果——通過復(fù)用同一計算池,顯著降低跨任務(wù)訓練的硬件開銷。
為降低技術(shù)門檻,團隊同步開源了Tinker Cookbook庫。這個代碼庫收錄了伊利諾伊大學香檳分校團隊開發(fā)的Search-R1工具,該工具通過"邊推理邊搜索"機制提升模型決策能力。開發(fā)者可基于庫中提供的現(xiàn)代實現(xiàn)模板,快速構(gòu)建自定義訓練流程。
實際應(yīng)用案例顯示,Tinker已獲得學術(shù)界廣泛認可。普林斯頓大學Goedel團隊利用其訓練數(shù)學定理證明器,僅用20%數(shù)據(jù)量即達到全參數(shù)微調(diào)模型的性能,在MiniF2F基準測試中取得90.4%的準確率;斯坦福大學Rotskoff化學小組通過強化學習,將LLaMA 70B模型的化學公式轉(zhuǎn)換準確率從15%提升至50%;加州大學伯克利分校SkyRL團隊則借助其異步訓練框架,實現(xiàn)了多智能體協(xié)作的強化學習實驗。
參與測試的Anyscale公司CEO羅伯特·西西哈拉(Robert Nishihara)指出,Tinker在抽象化分布式訓練細節(jié)的同時,仍保持了對數(shù)據(jù)和算法的完全控制權(quán)。伯克利博士生泰勒·格里格斯(Tyler Griggs)則強調(diào)其靈活性:"傳統(tǒng)RL微調(diào)服務(wù)限制訓練邏輯修改,而Tinker讓研究者只需關(guān)注環(huán)境建模和算法設(shè)計。"
目前該工具處于內(nèi)部測試階段,已開放等待名單申請。Thinking Machines承諾初期提供免費服務(wù),后續(xù)將推出基于使用量的定價模式。穆拉蒂表示,此舉旨在打破前沿AI研究的封閉趨勢:"當學術(shù)界與產(chǎn)業(yè)界的差距持續(xù)擴大時,我們需要讓更多創(chuàng)新者獲得調(diào)整尖端模型的能力。"











