科技領(lǐng)域近日迎來(lái)新突破,蘋果研究團(tuán)隊(duì)推出了一款名為SimpleFold的輕量級(jí)蛋白質(zhì)折疊預(yù)測(cè)AI模型。該模型采用流匹配技術(shù),摒棄了傳統(tǒng)模型中依賴的多序列比對(duì)等復(fù)雜模塊,有效降低了計(jì)算成本,為科研界帶來(lái)了新的可能性。
傳統(tǒng)蛋白質(zhì)折疊預(yù)測(cè)模型如AlphaFold2和RoseTTAFold,雖然具備高精度,但因其依賴多序列比對(duì)、三角更新等計(jì)算密集型架構(gòu),導(dǎo)致訓(xùn)練和推理成本居高不下。蘋果團(tuán)隊(duì)此次通過(guò)簡(jiǎn)化模型結(jié)構(gòu),旨在降低硬件門檻,使更多科研團(tuán)隊(duì)能夠參與到蛋白質(zhì)折疊研究中來(lái)。
SimpleFold的核心技術(shù)是2023年提出的流匹配方法,這種方法源于擴(kuò)散模型,但在生成過(guò)程中進(jìn)行了創(chuàng)新。它不采用逐步去噪的方式,而是直接從隨機(jī)噪聲中一次性生成目標(biāo)結(jié)構(gòu)。相比逐步迭代的擴(kuò)散模型,流匹配方法跳過(guò)了多個(gè)去噪環(huán)節(jié),計(jì)算量顯著降低,生成速度大幅提升。這一技術(shù)在文本生成圖像和3D建模領(lǐng)域已取得成功,如今被應(yīng)用于蛋白質(zhì)折疊預(yù)測(cè)。
在實(shí)驗(yàn)中,研究人員訓(xùn)練了從100M到3B參數(shù)的多個(gè)SimpleFold版本,并在CAMEO22和CASP14兩大權(quán)威基準(zhǔn)上進(jìn)行了評(píng)估。這些測(cè)試涵蓋了模型的泛化性、魯棒性以及原子級(jí)精度等多個(gè)方面。結(jié)果顯示,SimpleFold在性能上穩(wěn)定優(yōu)于同類流匹配模型ESMFlow,甚至能夠與頂尖模型相媲美。
具體而言,SimpleFold無(wú)需使用昂貴的多序列比對(duì)和三角注意機(jī)制,在CAMEO22基準(zhǔn)上達(dá)到了AlphaFold2和RoseTTAFold2約95%的性能水平。而更小的SimpleFold-100M版本在保持高效的同時(shí),性能也超過(guò)了ESMFold的90%。這一成果驗(yàn)證了通用架構(gòu)模塊在蛋白質(zhì)預(yù)測(cè)領(lǐng)域的可行性和競(jìng)爭(zhēng)力。
研究還發(fā)現(xiàn),隨著模型規(guī)模和訓(xùn)練數(shù)據(jù)的增加,SimpleFold的性能穩(wěn)定提升,尤其在高難度測(cè)試中表現(xiàn)出明顯優(yōu)勢(shì)。蘋果團(tuán)隊(duì)表示,SimpleFold只是他們探索高效蛋白質(zhì)生成模型的起點(diǎn),希望這一成果能夠激發(fā)社區(qū)構(gòu)建更多強(qiáng)大、高效的模型,從而進(jìn)一步加速藥物研發(fā)和新材料探索的進(jìn)程。