0 基本信息:論文來源:2020 CVPR oral 1 Motivation目前的二階段檢測網絡包括2個部分:proposal generation stage和prediction refinement stage。 在proposal generation stage,SA層用于下采樣,以提高效率和增加感受野,;FP層用于下采樣過程中丟失點的特征傳播,以恢復所有點。 在prediction refinement stage,對于RPN生成的proposals進一步refine以提升精度。 然而,作者認為提取特征的SA是必不可少的,而FP層和refinement可以移除以提升效率,三者耗時如下表所示。但是SA層中常用的下采樣策略D-FPS由于僅考慮點與點間的相對位置關系,會導致前景點中將近一半的點被刪除,使得代表點數量銳減;之前的做法是利用FP層召回這些被刪除的點,但耗時很多。因此本文擬解決該問題,如何在移除FP層的情況下,盡可能的保留前景點?;诖?,本文提出單階段的3D目標檢測框架。 2 Abstract本文提出了一種輕量且有效的point-based的3D目標檢測框架——3DSSD(3DSingle Stage objectDetector),該框架刪除了上采樣層(FP層)和refinement模塊以減少計算量(取而代之的是融合層和CG層)。對于下采樣過程,新提出一種融合采用策略(fusion sample strategy),從而在代表性不強的點上取得較好的檢測結果。 邊界框預測網絡包括:候選框生成、anchor-free回歸頭、3D中心度分配策略(分配label)。在KITTI數據上性能達到SOTA,且速度為25FPS。 3 Introduction 縮寫說明:
對于point-based的方法,一般由2部分組成:第一部分利用SA層下采樣和提取點云的語義特征,FP層用于上采樣,并將特征廣播到下采樣期間所丟棄的點,再利用3D RPN生成proposals;第二部分利用refinement模塊進一步提高初始proposals的精度。 觀察發現,point-based方法中FP層和refinement模塊耗時較多,因此本文旨在移除FP層和refinement模塊。對于SA層中下采樣策略,如D-FPS,點數較少的前景目標在下采樣后很容易失去所有點,因此不會被檢測到,導致performance降低。在之前的方法中,使用FP層召回刪除的點,盡管其計算量很大。為了解決這個問題,本文基于特征間的距離提出一種新的采樣策略——F-FPS,有效保留目標中的點。本文最終的采樣策略是D-FPS和F-FPS的融合。 為了充分利用SA層后保留的代表點,本文設計了邊界框預測網絡,包括:候選框生成層(CG)、anchor-free回歸頭、3D中心度分配策略。在CG層中,首先將代表點利用F-FPS轉移生成候選點,該過程由代表點與其實例的中心之間的相對位置來監督;再將這些候選點看做中心點,基于F-FPS和D-FPS從整個代表點中找到其周圍點,然后利用MLP提取特征;特征再輸入anchor-fee回歸頭預測3D邊界框;此外,還設計了3D中心度分配策略,它向更接近實例中心的候選點分配更高的分類分數。 4 Method4.1 Fusion sampling Challenge: SA層利用D-FPS進行下采樣,以選擇代表點;若沒有FP層,邊界框預測網絡僅利用D-FPS后剩下代表點進行預測。然而,D-FPS抽樣只考慮了點與點之間的相對位置,也就是說,大部分剩下的代表點實際上是背景點,如地面點,因為其數量很大。在這個過程,存在某些前景目標的點數較少(距離傳感器較遠的目標)而被刪除的可能,從而檢測不到。 統計上,使用點的recall值,即下采樣后剩下點數與總點數的商,來量化這個情況。如下表所示。當代表點數設置為1024或512時,recall僅為65.9%和51.8%,也就是說前景目標上將近一半的點在下采樣過程被刪除掉了。為了解決這個問題,一般情況下會使用FP層召回下采樣中刪除的點,盡管其耗時較多, Feature-FPS:(距離信息 語義信息) 為了盡可能保留前景點,刪除背景點,必須同時考慮距離信息和語義信息。在深度網絡中,很容易得到目標的語義信息,在FPS過程利用目標的語義信息刪除無用的背景點;而僅使用語義信息作為FPS下采樣的標準會導致相同實例的點被保留下來,造成冗余。因此,本文同時考慮語義信息和距離信息作為FPS下采樣標準: 其中,Ld(A,B)是XYZ空間的L2距離;Lf(A,B)是特征空間的L2距離。 Fusion Sampling: 利用F-FPS,SA層成功保留了大部分前景點。然而,對于代表點數固定為Nm的前景來說,很多背景點被刪除了,這有利于回歸任務但不利于分類任務。也就是說,SA層的group stage會聚集周圍點的特征,但是由于背景點不能找到足夠多的周圍點,使其感受野較小,導致模型難以區分positive和negative點,降低分類精度。 由上述分析可得,在SA層后,不僅要保留足夠多的前景點以提升回歸精度,也要保留足夠多的背景點提升分類精度。因此,本文提出融合策略(FS),即在SA層中同時使用D-FPS和F-FPS,具體而言,分別用F-FPS和D-FPS采樣Nm/2點,并將這兩個集合一起輸入到SA層中進行后續操作。 4.2 Box Prediction Network Candidate Generation Layer: 為了進一步減少計算和利用融合策略的優點,提出了CG層。對于邊界框回歸任務而言,背景點是無用的,因此僅使用F-FPS的點作為初始中心點。與votenet類似,這些初始中心點在其相對位置的監督下移動到其相應的實例中,得到候選點,如圖2所示。然后,將候選點當做CG層的中心點,再通過預先設置的閾值從F-FPS和D-FPS的集合點中找到他們的周圍點,最后采用MLP提取它們的特征,這些特征用來預測最后的3D邊界框。 Anchor-free Regression Head: 對于每一個候選點,預測到對應實例的距離(dx, dy, dz)、大小(dl, dw, dl)以及方向。由于每個點都沒有先驗方向,因此采用F-pointnet中的方法。 3D Center-ness Assignment Strategy:(參考FCOS) 在訓練的過程中,我們需要給每個候選點分配label。 在2d目標檢測中,通常使用iou閾值或者mask去給每個像素分配label。在FCOS中,提出了一個連續的center-ness label,代替原始的二分類標簽,以進一步區分像素,越是靠近object中心的像素,center-ness越接近于1,所得到的分數也就設置越大,即 但是由于所有的3D點云都在物體的表面,因此center-ness都非常小并且接近,不太可能從這些點得到好的預測結果。因為候選點是從F-FPS采樣后再做中心回歸后得到的點,靠近中心的候選點可以有更加準確的結果,所以利用候選點而非原始點云,更容易根據center-ness label輕松將object的表面的點區分開。 對于center-ness label的定義,分為2步:
最終分類的標簽是Lmask和Lctrness的乘積。 5 ExperimentKITTI數據集: nuScenes數據集: |