只需對著電腦說一句“我想要一個北歐風格的臥室”,幾分鐘后,一個細節逼真的3D房間便呈現在屏幕上,不僅能360度自由查看,連窗簾的褶皺和地板的紋理都清晰可見。這并非科幻電影中的場景,而是香港科技大學研究團隊與Manycore Tech Inc.公司合作研發的SpatialGen技術帶來的現實突破。這項發表于arXiv平臺(編號2509.14981v2)的研究,正在重新定義人工智能在三維空間設計領域的能力邊界。
傳統3D建模如同手工雕刻,設計師需花費數周甚至數月調整每個細節,而現有自動生成方法雖能提速,卻常陷入“玩具屋”困境——要么布局呆板如積木拼接,要么視角轉換時出現家具“變形”。SpatialGen的突破在于找到了真實感與靈活性的平衡點:其生成的場景既擁有照片級質感,又能確保從任意角度觀察都符合物理規律。研究團隊通過構建全球最大規模的室內場景數據集,為AI提供了超過470萬張全景圖像的“學習素材”,涵蓋客廳、廚房、書房等10類空間,總計5.7萬個獨立房間。
該技術的核心是一個能同時處理文字、圖像和空間坐標的多模態生成系統。當用戶輸入“現代簡約客廳”的文本描述或上傳一張參考圖片時,系統會先解析3D房間布局中的基礎結構,再通過創新的交替注意力機制協調不同視角的信息。這一機制如同經驗豐富的建筑師,既能確保從各個角度看到的沙發保持一致,又能協調顏色、幾何形狀與語義標簽的精準對應。例如,在生成書房場景時,系統能同時處理書架的RGB圖像、空間位置坐標以及“書籍”“臺燈”等語義標簽,避免出現視角切換時物品錯位的問題。
數據集的構建過程堪稱一場“數字考古”。研究團隊從專業設計平臺篩選出1.2萬個真實項目,為每個場景規劃物理合理的攝像機軌跡,每隔0.5米采集一次數據,最終生成包含顏色、深度、法線等信息的全景圖像。為保證數據質量,他們制定了嚴格標準:只保留面積超過8平方米、包含3種以上獨特物體的房間,并將6.5萬個原始物體類別映射為62個通用類別。這種篩選方式確保了AI既能學習到“沙發靠墻擺放”的普遍規律,又能掌握不同風格的空間設計技巧。
在技術實現上,研究團隊開發了場景坐標圖變分自編碼器(SCM-VAE),通過引入多尺度梯度損失函數,解決了傳統圖像編碼器在處理幾何信息時的失真問題。生成過程采用迭代密集視角策略,系統會逐步完善場景的全局點云,每次迭代時將已有點云投影到新視角,結合不確定性圖過濾低質量數據。最終通過基于RaDe-GS的3D重建技術,將多視角圖像轉化為包含語義信息的3D高斯點云,實現7000步內快速收斂的高保真重建。
實驗數據顯示,SpatialGen在文本到3D生成任務中全面超越分數蒸餾方法(SDS)。當在組合數據集上訓練時,其圖像獎勵分數較SceneCraft提升12%,FID分數降低18%。在圖像到3D生成測試中,系統能處理前進、內向、外向和隨機游走四種攝像機軌跡,其中內向軌跡生成的場景語義一致性最高,外向軌跡在創新布局上表現突出。與專門優化單一全景圖的Ctrl-Room相比,SpatialGen的優勢在于支持自由視角瀏覽,且生成的新視角圖像質量提升23%。
這項技術的價值已超越學術范疇。在游戲開發領域,設計師可通過文字描述快速生成數百種室內場景;在虛擬裝修應用中,用戶上傳房間照片后,系統能自動生成多種風格的設計方案;機器人研究機構則利用其生成多樣化訓練環境,提升導航算法的泛化能力。研究團隊已開源數據集和模型代碼,為行業提供基礎工具。盡管當前系統在處理超復雜場景時仍需優化計算效率,但其展現的多模態理解與生成能力,正為三維空間設計開辟全新可能。











