在人工智能領(lǐng)域,一場(chǎng)關(guān)于模型發(fā)展方向的變革正在悄然興起。長(zhǎng)期以來(lái),大模型憑借龐大的參數(shù)規(guī)模和強(qiáng)大的計(jì)算能力占據(jù)主導(dǎo)地位,然而,近期由Essential AI Labs推出的Rnj-1開源模型,卻以80億參數(shù)的“小身板”,為輕量化、開放式AI探索開辟了新路徑。
Rnj-1的誕生,背后有著深厚的學(xué)術(shù)底蘊(yùn)。其研發(fā)團(tuán)隊(duì)核心成員Ashish Vaswani和Niki Parmar,正是2017年那篇具有里程碑意義的論文《注意力就是你所需要的一切》的作者。這篇論文奠定了Transformer架構(gòu)的基礎(chǔ),如今幾乎所有知名大模型,如ChatGPT、Gemini、Claude、Llama等,都采用了這一框架。可以說(shuō),他們是大模型時(shí)代的開創(chuàng)者之一。
然而,隨著行業(yè)的發(fā)展,大模型領(lǐng)域逐漸陷入了“軍備競(jìng)賽”的怪圈。以Google DeepMind CEO哈薩比斯為代表的觀點(diǎn)認(rèn)為,要實(shí)現(xiàn)通用人工智能(AGI),就必須將“擴(kuò)規(guī)模”做到極致,更多數(shù)據(jù)、更多算力、更大模型成為主流追求。但Ashish Vaswani和Niki Parmar卻對(duì)此提出了質(zhì)疑,他們認(rèn)為模型并非越大越聰明,從算力效率角度看,大模型時(shí)代或許已經(jīng)接近尾聲,小模型時(shí)代正悄然來(lái)臨。
Rnj-1正是這種理念的實(shí)踐成果。這款從零開始訓(xùn)練的80億參數(shù)模型,雖然參數(shù)規(guī)模遠(yuǎn)不及那些動(dòng)輒萬(wàn)億的大模型,但它在多個(gè)方面展現(xiàn)出了強(qiáng)大的實(shí)力。在代碼生成領(lǐng)域,Rnj-1 Base與Instruct在Humaneval+、MBPP+等算法類代碼任務(wù),以及BigCodeBench等更廣泛的編程任務(wù)中,表現(xiàn)與最強(qiáng)同規(guī)模開源模型相當(dāng),甚至在某些情況下超越了更大的GPT OSS 20B。
在智能體能力方面,Rnj-1 Instruct表現(xiàn)尤為突出。在SWE-bench上,它的表現(xiàn)比同尺寸模型強(qiáng)出近一個(gè)數(shù)量級(jí),接近大規(guī)模模型水平。它能夠主動(dòng)使用性能分析器檢查瓶頸,提出優(yōu)化方案并進(jìn)行多輪迭代。在Enamel任務(wù)中,Rnj-1 Instruct超越了強(qiáng)力基線;在伯克利函數(shù)調(diào)用排行榜(BFCL)中,其工具使用能力也領(lǐng)先同類模型。
數(shù)學(xué)與科學(xué)推理能力也是Rnj-1的一大亮點(diǎn)。在AIME'25(高難度高中數(shù)學(xué))中,Rnj-1 Instruct的數(shù)學(xué)能力與最強(qiáng)開源模型匹敵;Rnj-1 Base在Minerva-MATH上與同規(guī)模模型保持一致;在GPQA-Diamond(包含生物、物理、化學(xué)的高難度題目)上,表現(xiàn)也接近同尺寸模型中的領(lǐng)先水平。
除了性能出色,Rnj-1對(duì)量化也非常穩(wěn)健。這意味著它能在更便宜、更省電的顯卡上快速運(yùn)行,且模型質(zhì)量幾乎不受影響。從BF16到FP8再到NVFP4,在顯著提升提示密集型工作負(fù)載的token吞吐量的同時(shí),模型質(zhì)量依然穩(wěn)定。Token吞吐量數(shù)據(jù)基于NVIDIA B200 GPU測(cè)得,其中KV Cache的數(shù)據(jù)類型設(shè)為FP8,批大小為128。
Rnj-1之所以能取得如此優(yōu)異的成績(jī),離不開其獨(dú)特的技術(shù)架構(gòu)。它采用全局自注意力機(jī)制(global self-attention)和YaRN技術(shù)。全局自注意力機(jī)制就像為模型配備了一雙“全景眼睛”,無(wú)論輸入多長(zhǎng),都能一次全部看清;YaRN技術(shù)則如同“長(zhǎng)距離閱讀輔助器”,讓模型在32k上下文中仍能保持清晰思考。
Essential AI Labs在研發(fā)Rnj-1的過(guò)程中,秉持著獨(dú)特的理念。他們專注于基礎(chǔ)能力的提升,認(rèn)為強(qiáng)大的預(yù)訓(xùn)練本身就會(huì)產(chǎn)生推理能力,而不是依靠后期堆砌強(qiáng)化學(xué)習(xí)(RL)來(lái)補(bǔ)課。在早期預(yù)訓(xùn)練階段,他們就觀察到模型出現(xiàn)反思與探索式推理的跡象,這印證了“強(qiáng)預(yù)訓(xùn)練是下游成功基礎(chǔ)”的判斷。他們還通過(guò)數(shù)據(jù)分類研究,得到了一種新的“帶重復(fù)懲罰的數(shù)據(jù)分布聚類與混合方法”,提升了模型在STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))方面的能力。在優(yōu)化器方面,他們證明了Muon優(yōu)化器相較AdamW更高效,并開發(fā)了適配大模型的分片策略。
Rnj-1的推出,不僅為AI領(lǐng)域帶來(lái)了新的技術(shù)思路,也在開源生態(tài)中引發(fā)了關(guān)注。當(dāng)前,輕量化開源生態(tài)領(lǐng)域正由中國(guó)企業(yè)主導(dǎo),而Essential AI的開源平臺(tái)以及Rnj-1的推出,旨在推動(dòng)美國(guó)AI開源領(lǐng)域的發(fā)展,搶奪在這一領(lǐng)域的話語(yǔ)權(quán)。這一舉措有望打破“越大越好”的行業(yè)競(jìng)爭(zhēng)格局,加速AI人人可用時(shí)代的到來(lái),讓更多人能夠享受到人工智能帶來(lái)的便利。





