只需兩張普通照片,就能在眨眼間生成完整的3D人體模型——這項曾出現在科幻電影中的技術,如今已成為現實。華中科技大學聯合華為、上海交通大學的研究團隊,開發出一套名為"Snap-Snap"的創新系統,通過人體正面和背面兩張照片,僅需190毫秒即可完成高精度3D重建,為3D數字內容創作開辟了全新路徑。
傳統3D人體重建技術長期面臨兩大困境:要么依賴專業多攝像頭陣列采集多角度數據,設備成本高昂;要么基于人體先驗模型進行預測,但面對寬松服裝等非常規形態時往往失真。研究團隊創造性地將問題轉化為"智能拼圖":通過兩張照片中的幾何信息,結合深度學習模型推斷出側面細節,最終拼合出完整3D模型。這種雙視角方案既保持了操作簡便性,又突破了傳統方法的局限。
系統核心在于重新設計的幾何重建模型。該模型在DUSt3R基礎架構上針對人體特征優化,設置四個獨立預測頭分別處理正背面及左右側面。側面預測頭通過融合正背面信息的平均值,學習從有限數據中推斷缺失結構。為解決比例對齊問題,系統引入可學習縮放參數,確保生成的3D模型符合真實人體比例。實驗表明,這種設計使側面重建完整性顯著提升,避免了傳統方法常見的肢體缺失問題。
顏色信息補全通過創新算法實現。系統采用最近鄰搜索技術,將正背面圖像的色彩數據"映射"到側面點云。具體而言,對每個側面點,系統在已知彩色點云中尋找空間最近點,繼承其顏色屬性。這種類比"照片上色"的技術,使生成的3D模型具備完整紋理,解決了雙視角輸入導致的色彩缺失難題。
為提升渲染質量,研究團隊將點云轉換為3D高斯表示。每個高斯粒子不僅包含空間坐標,還攜帶顏色、透明度、縮放等屬性。通過UNet網絡回歸這些參數,系統能生成細節更豐富的3D模型。訓練過程采用兩階段策略:第一階段專注幾何精度,使用3D點云和2D掩碼監督;第二階段優化視覺效果,通過渲染圖像與真實圖像的差異調整參數。這種分步訓練使模型在幾何準確性和視覺質量上均達到領先水平。
在THuman2.0數據集測試中,Snap-Snap在PSNR、SSIM、LPIPS等核心指標上全面超越現有方法。特別值得注意的是,相比使用5個視角的GPS-Gaussian方法,Snap-Snap僅用2個視角就實現了更高重建質量。與依賴人體模型的GHG方法相比,該系統不僅質量更優,推理速度更提升數十倍。跨數據集測試顯示,系統在2K2K和4D-Dress數據集上同樣表現優異,證明其具備強泛化能力。
實際應用驗證環節,研究團隊使用兩部普通手機搭建采集裝置,成功完成3D重建。這表明即使低成本移動設備,也能提供足夠數據支持系統運行。計算效率方面,整個過程在NVIDIA RTX 4090顯卡上僅需190毫秒,其中點云預測91毫秒,高斯回歸87毫秒,側面增強12毫秒。這種毫秒級響應速度,為實時交互應用奠定了技術基礎。
消融實驗證實了系統設計的科學性。移除側面預測頭會導致模型出現明顯缺失;不使用側面增強算法會使紋理銜接生硬;去掉幾何模型預訓練權重則顯著降低重建精度。與單視角方法對比顯示,雙視角輸入在保持操作簡便的同時,大幅提升了模型完整性和一致性,避免了生成模型常見的不可控變形問題。
數據擴展性研究帶來積極信號。當訓練數據從426個掃描增加到2992個時,系統性能持續提升,表明該方法可通過擴大數據集進一步優化。研究團隊特別指出,系統在處理寬松服裝時表現突出,這得益于其不依賴SMPL-X等人體先驗模型的設計,有效克服了傳統方法在非常規形態重建中的短板。
盡管已取得突破,研究團隊也坦言當前系統存在改進空間。在腋下、手臂交叉等嚴重遮擋區域,點云監督信號不足可能導致局部空洞。未來計劃引入幾何生成先驗,通過學習更豐富的空間關系來優化這些區域的重建效果。這些持續優化將推動技術向更高精度、更強魯棒性方向發展。
這項成果的意義超越技術本身。在元宇宙、虛擬試衣、遠程會議等場景快速發展的背景下,低成本、高質量的3D人體重建技術將成為數字內容產業的關鍵基礎設施。普通用戶通過簡單拍照即可創建個人3D數字分身,大幅降低參與虛擬世界的門檻。從技術演進角度看,Snap-Snap在重建質量、計算效率和操作便利性之間找到了理想平衡點,為3D視覺領域提供了新的研究范式。









