入選ICCV2023 單目3D檢測論文成果應用于無人駕駛水平運輸
2023-08-29 14:34 來源:飛步科技
近日,飛步科技與浙江大學等合作的論文《MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection》被ICCV接收。ICCV全稱為計算機視覺國際大會(International Conference on Computer Vision),由IEEE舉辦,是全球范圍內計算機視覺領域的頂級學術會議。ICCV2023共收到全球范圍內8068篇投稿,最終收錄2160篇,接受率為26.8%。
單目3D檢測指的是通過單個攝像頭來實現3D目標檢測的辦法。作為計算機視覺領域內的熱門任務,單目3D檢測已被廣泛應用于自動駕駛、機器人等方向。單目3D檢測的核心在于建立二維圖像和三維空間之間合理的對應關系,因此利用場景幾何線索來提高單目檢測器的性能是十分常見的做法。然而,許多現有方法顯式地利用了這些線索,例如通過估計深度圖并將其反投影到三維空間中——由于從二維到三維的維度增加,這類顯式的方法會導致三維表示的稀疏性,從而引發大量的信息丟失,尤其是對于遠處及遮擋物體等。
為了解決這個問題,論文提出了一種新穎的單目3D檢測框架:MonoNeRD,僅需輸入單張圖片,就可以通過稠密的三維幾何信息與占用(Occupancy)情況來推斷目標在三維空間中的位置,從而極大地提高單目3D檢測的精度。
具體來說,MonoNeRD使用有符號距離函數(SDF)來對場景進行建模,以便產生稠密的三維表示,并將這些三維表示視為神經輻射場(NeRF),利用體渲染從中恢復出RGB圖像和像素級別的深度圖。論文提出了基于空間位置信息的position-aware frustum construction來實現三維空間和二維圖像信息的交互。在此基礎上,基于NeRF中渲染重建的特點提出了SDF loss,通過LiDAR信號來控制三維幾何表面滿足有符號距離函數的零水平集(zero-level set)約束。
除了開展單目3D檢測并大幅提升效率外,論文提出的方法還可以作為一個高效三維占用(3D occupancy)推斷器。相較于以往的三維占用預測方法,MonoNeRD無需使用特別標注的三維占用數據集進行訓練。在KITTI 3D、Waymo Open Dataset等具有代表性的三維目標檢測公開數據集上的實驗表明,與現有的基于顯示幾何線索的單目3D檢測算法相比,MonoNeRD的表現更加優越,在Waymo Open Dataset上的總體3D平均精度/朝向加權平均精度(3D mAP/mAPH)提升5-10個點。
MonoNeRD等成果已應用于飛步科技自主研發的無人駕駛水平運輸系統(FabuDrive)中,融入深度學習模型的日常訓練,大幅提升了單目3D檢測效率,對于倒地水馬等不規則物體的識別也表現優異,為全天候開展全無人集卡常態化運營奠定了堅實的技術基礎。
-
暫無記錄