在人工智能領域,神經信息處理系統(tǒng)大會(NeurIPS)一直被視為最具影響力的頂級學術會議,其地位猶如奧斯卡之于電影界,是全球AI發(fā)展的年度風向標。近日,任少卿、何愷明、羅斯·吉爾希克(Ross Girshick)、孫劍憑借“Faster R-CNN”(快速區(qū)域卷積神經網絡架構)榮獲2025年NeurIPS時間檢驗獎,這一消息引發(fā)了廣泛關注。
NeurIPS時間檢驗獎旨在表彰那些經過十年時間考驗、對學科發(fā)展產生深遠影響的奠基性工作。過去三年,該獎項的獲得者不乏諾貝爾獎得主杰弗里·辛頓(Geoffrey Hinton)、圖靈獎得主約書亞·本吉奧(Yoshua Bengio)以及OpenAI聯(lián)合創(chuàng)始人兼首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)等國際頂尖學者。
“Faster R-CNN”誕生于2015年,由中國學者任少卿、何愷明、孫劍主導,聯(lián)合美國人工智能科學家羅斯·吉爾希克共同發(fā)表。這一新型網絡架構實現(xiàn)了物體檢測效率的顯著提升,超過10倍以上,首次開創(chuàng)了端到端實時精準目標檢測模式。截至目前,相關文章已被學術引用超9.8萬次,任少卿作為第一作者,其文章不僅是華人在該會議上發(fā)表的學術引用量最高之作,也是AI檢測領域全球最高被引論文。
十多年來,“Faster R-CNN”的核心思想已深度融入人工智能基礎技術基因,成為驅動自動駕駛、醫(yī)療影像、安防監(jiān)控、工業(yè)檢測、衛(wèi)星遙感等關鍵領域發(fā)展的核心力量。任少卿與合作者何愷明(現(xiàn)MIT副教授)、孫劍(前曠視科技首席科學家)此前還共同發(fā)表過深度殘差網絡框架ResNet,該文章已成為21世紀全球最高被引論文。
任少卿在回憶與導師孫劍的合作時表示,孫劍堅持“simple but work”的理念,這一理念在日常交流和論文評審中逐漸深入人心。他回憶起自己寫的第一篇論文,因不夠簡潔而最終放棄投稿,如今看來,那篇論文更多是在他人工作基礎上的簡單疊加,缺乏實質性創(chuàng)新。他強調,追求“simple but work”需要遠見、品位和堅持,三者缺一不可。
談及與何愷明的合作,任少卿表示,兩人合作時間最長,工作節(jié)奏緊湊而高效。每天早上到公司后,他們會先查看實驗結果,隨后展開交流,從上午11點到12點吃飯時繼續(xù)討論,下午2點各自工作,5點再次討論并共進晚餐。何愷明對研究問題的專注和創(chuàng)新精神給他留下了深刻印象,他認為何愷明善于尋找研究方向和突破點,并投入巨量時間建立思維架構。
在深度學習方向的選擇上,任少卿表示,團隊先是進行了嘗試,在看到可能性后才堅持下來。選擇這一方向的原因包括方法創(chuàng)新、已有結果進展以及結果的泛化能力。他們認為,一個新方向的上限要高,且已達到的結果需真實可靠,而非僅在特定范圍內有效。
“Faster R-CNN”解決了物體檢測任務的端到端問題。傳統(tǒng)物體檢測分為兩步:先在圖像上尋找可能的目標候選區(qū)域,再對這些區(qū)域進行分類。這一過程計算量巨大,效率低下。而“Faster R-CNN”通過一個網絡直接輸出結果,實現(xiàn)了實時檢測,頻率可達10Hz、20Hz甚至30Hz,顯著提升了效率并降低了延遲,為產業(yè)應用帶來了突破。
2020年8月,任少卿加入蔚來,負責搭建團隊并推進自研芯片項目。當時,蔚來面臨L2和L4差異的爭論以及是否全棧自研的選擇。最終,蔚來決定全棧自研L2產品,支持L3和L4發(fā)展。在組建團隊的同時,蔚來還與英偉達合作,提前量產了Orin芯片,成為全球首個量產Orin芯片的車企,并推出了全球最復雜的ADC(自動駕駛域控制器)架構。
Orin芯片作為新一代產品,面臨散熱、功耗、熱穩(wěn)定性等諸多挑戰(zhàn)。蔚來團隊在短時間內解決了這些問題,并重新構建了AI、CPU、調度相關的工具鏈。任少卿表示,團隊在定義芯片需求時,預見了Transformer技術的興起,并在芯片設計中預留了高帶寬和熱備能力,以支持更高級別的自動駕駛功能。
在自研芯片量產進程中,蔚來還建設了一系列工具鏈和體系,其中數(shù)據(jù)閉環(huán)系統(tǒng)是核心之一。任少卿認為,數(shù)據(jù)的重要性在于其針對特定模型的精準挑選,而這一過程消耗大量算力。因此,蔚來建立了靈活調用云端和車端算力的系統(tǒng),并在此基礎上構建了大數(shù)據(jù)體系。蔚來還借鑒互聯(lián)網行業(yè)的“AB test”方法,建立了靈活調度算力的系統(tǒng),實現(xiàn)了模型的高效迭代。
針對主動安全領域的挑戰(zhàn),蔚來利用“AB test”系統(tǒng)實現(xiàn)了三天迭代一次的頻率,顯著降低了誤報率。同時,蔚來還建立了針對量產車智駕問題的自動化分析系統(tǒng),通過大模型過濾無效信息,提高研發(fā)效率。
在自動駕駛技術演進過程中,端到端成為熱門話題。任少卿認為,端到端是技術發(fā)展的一個階段,但并未解決所有問題。他指出,語言模型以語言為核心,難以解決時空認知問題,而自動駕駛作為真實世界中的Agent,需要同時具備概念認知和時空認知能力。因此,蔚來從2023年開始投入研發(fā)世界模型,旨在建立時空認知能力,解決長時序問題。
世界模型通過學習空間和時間信息,支持長時序推演,使自動駕駛系統(tǒng)能夠更一體化地處理復雜場景。任少卿表示,蔚來在小路處理能力上的提升就是世界模型應用的典型案例。在小路會車時,世界模型能夠綜合考慮空間和時間因素,做出更合理的決策判斷。











