2020 CVPR Oral—港中文+港科技聯合推出一階段3D目標檢測框架3DSSD

2022-11-12 07:46| 發布者: Jorliman 922 1

摘要: 0 基本信息：論文來源：2020 CVPR oral1 Motivation目前的二階段檢測網絡包括2個部分：proposal generation stage和prediction refinement stage。在proposal generation stage，SA層用于下采樣，以提高效率和增加感 ...

0 基本信息：

論文來源：2020 CVPR oral

1 Motivation

目前的二階段檢測網絡包括2個部分：proposal generation stage和prediction refinement stage。

在proposal generation stage，SA層用于下采樣，以提高效率和增加感受野，；FP層用于下采樣過程中丟失點的特征傳播，以恢復所有點。

在prediction refinement stage，對于RPN生成的proposals進一步refine以提升精度。

然而，作者認為提取特征的SA是必不可少的，而FP層和refinement可以移除以提升效率，三者耗時如下表所示。但是SA層中常用的下采樣策略D-FPS由于僅考慮點與點間的相對位置關系，會導致前景點中將近一半的點被刪除，使得代表點數量銳減；之前的做法是利用FP層召回這些被刪除的點，但耗時很多。因此本文擬解決該問題，如何在移除FP層的情況下，盡可能的保留前景點?；诖?，本文提出單階段的3D目標檢測框架。

2020 CVPR Oral—港中文港科技聯合推出一階段3D目標檢測框架3DSSD-4004

2 Abstract

本文提出了一種輕量且有效的point-based的3D目標檢測框架——3DSSD(3DSingle Stage objectDetector)，該框架刪除了上采樣層(FP層)和refinement模塊以減少計算量(取而代之的是融合層和CG層)。對于下采樣過程，新提出一種融合采用策略（fusion sample strategy），從而在代表性不強的點上取得較好的檢測結果。

邊界框預測網絡包括：候選框生成、anchor-free回歸頭、3D中心度分配策略（分配label）。在KITTI數據上性能達到SOTA，且速度為25FPS。

3 Introduction

縮寫說明：

SA：set abstraction（特征提取，抽象）
FP：feature propagation（特征傳播）
D-FPS：furthest point sampling based on 3D Euclidean distance（基于歐式距離的最遠點采樣）
F-FPS：furthest point sampling based on feature distance（基于特征距離的最遠點采樣）
CG：candidate generation layer（候選框生成層）

對于point-based的方法，一般由2部分組成：第一部分利用SA層下采樣和提取點云的語義特征，FP層用于上采樣，并將特征廣播到下采樣期間所丟棄的點，再利用3D RPN生成proposals；第二部分利用refinement模塊進一步提高初始proposals的精度。

觀察發現，point-based方法中FP層和refinement模塊耗時較多，因此本文旨在移除FP層和refinement模塊。對于SA層中下采樣策略，如D-FPS，點數較少的前景目標在下采樣后很容易失去所有點，因此不會被檢測到，導致performance降低。在之前的方法中，使用FP層召回刪除的點，盡管其計算量很大。為了解決這個問題，本文基于特征間的距離提出一種新的采樣策略——F-FPS，有效保留目標中的點。本文最終的采樣策略是D-FPS和F-FPS的融合。

為了充分利用SA層后保留的代表點，本文設計了邊界框預測網絡，包括：候選框生成層(CG)、anchor-free回歸頭、3D中心度分配策略。在CG層中，首先將代表點利用F-FPS轉移生成候選點，該過程由代表點與其實例的中心之間的相對位置來監督；再將這些候選點看做中心點，基于F-FPS和D-FPS從整個代表點中找到其周圍點，然后利用MLP提取特征；特征再輸入anchor-fee回歸頭預測3D邊界框；此外，還設計了3D中心度分配策略，它向更接近實例中心的候選點分配更高的分類分數。

4 Method

2020 CVPR Oral—港中文港科技聯合推出一階段3D目標檢測框架3DSSD-5964

4.1 Fusion sampling

Challenge：

SA層利用D-FPS進行下采樣，以選擇代表點；若沒有FP層，邊界框預測網絡僅利用D-FPS后剩下代表點進行預測。然而，D-FPS抽樣只考慮了點與點之間的相對位置，也就是說，大部分剩下的代表點實際上是背景點，如地面點，因為其數量很大。在這個過程，存在某些前景目標的點數較少（距離傳感器較遠的目標）而被刪除的可能，從而檢測不到。

統計上，使用點的recall值，即下采樣后剩下點數與總點數的商，來量化這個情況。如下表所示。當代表點數設置為1024或512時，recall僅為65.9%和51.8%，也就是說前景目標上將近一半的點在下采樣過程被刪除掉了。為了解決這個問題，一般情況下會使用FP層召回下采樣中刪除的點，盡管其耗時較多，

2020 CVPR Oral—港中文港科技聯合推出一階段3D目標檢測框架3DSSD-1625

Feature-FPS：（距離信息語義信息）

為了盡可能保留前景點，刪除背景點，必須同時考慮距離信息和語義信息。在深度網絡中，很容易得到目標的語義信息，在FPS過程利用目標的語義信息刪除無用的背景點；而僅使用語義信息作為FPS下采樣的標準會導致相同實例的點被保留下來，造成冗余。因此，本文同時考慮語義信息和距離信息作為FPS下采樣標準：

2020 CVPR Oral—港中文港科技聯合推出一階段3D目標檢測框架3DSSD-7370

其中，Ld(A,B)是XYZ空間的L2距離；Lf(A,B)是特征空間的L2距離。

Fusion Sampling：

利用F-FPS，SA層成功保留了大部分前景點。然而，對于代表點數固定為Nm的前景來說，很多背景點被刪除了，這有利于回歸任務但不利于分類任務。也就是說，SA層的group stage會聚集周圍點的特征，但是由于背景點不能找到足夠多的周圍點，使其感受野較小，導致模型難以區分positive和negative點，降低分類精度。

由上述分析可得，在SA層后，不僅要保留足夠多的前景點以提升回歸精度，也要保留足夠多的背景點提升分類精度。因此，本文提出融合策略（FS），即在SA層中同時使用D-FPS和F-FPS，具體而言，分別用F-FPS和D-FPS采樣Nm/2點，并將這兩個集合一起輸入到SA層中進行后續操作。

4.2 Box Prediction Network

Candidate Generation Layer：

2020 CVPR Oral—港中文港科技聯合推出一階段3D目標檢測框架3DSSD-597

為了進一步減少計算和利用融合策略的優點，提出了CG層。對于邊界框回歸任務而言，背景點是無用的，因此僅使用F-FPS的點作為初始中心點。與votenet類似，這些初始中心點在其相對位置的監督下移動到其相應的實例中，得到候選點，如圖2所示。然后，將候選點當做CG層的中心點，再通過預先設置的閾值從F-FPS和D-FPS的集合點中找到他們的周圍點，最后采用MLP提取它們的特征，這些特征用來預測最后的3D邊界框。

Anchor-free Regression Head：

對于每一個候選點，預測到對應實例的距離(dx, dy, dz)、大小(dl, dw, dl)以及方向。由于每個點都沒有先驗方向，因此采用F-pointnet中的方法。

3D Center-ness Assignment Strategy：（參考FCOS）

在訓練的過程中，我們需要給每個候選點分配label。

在2d目標檢測中，通常使用iou閾值或者mask去給每個像素分配label。在FCOS中，提出了一個連續的center-ness label，代替原始的二分類標簽，以進一步區分像素，越是靠近object中心的像素，center-ness越接近于1，所得到的分數也就設置越大，即

2020 CVPR Oral—港中文港科技聯合推出一階段3D目標檢測框架3DSSD-5519

但是由于所有的3D點云都在物體的表面，因此center-ness都非常小并且接近，不太可能從這些點得到好的預測結果。因為候選點是從F-FPS采樣后再做中心回歸后得到的點，靠近中心的候選點可以有更加準確的結果，所以利用候選點而非原始點云，更容易根據center-ness label輕松將object的表面的點區分開。

對于center-ness label的定義，分為2步：