全國咨詢/投訴熱線:400-618-4000

ECCV2020論文《Dive Deeper Into Box for Object Detection》解讀

更新時間:2020年09月14日14時59分 來源:傳智播客 瀏覽次數:

1 前言

該文章作者團隊來自香港中文大學、騰訊優圖、思謀科技等,收錄于ECCV2020.現階段,無錨框的目標檢測方法稱為流行,該論文提出了深度分析box來提升檢測性能的方法。

在目標檢測領域,雖然無錨框的取得成功,但仍存在一些問題。比如,檢測框框的中心點并不是目標的中心點,如下圖所示:

ECCV2020-01

而且中心點會出現漂移。

ECCV2020-02

為了解決這些問題,文章提出了一種邊框重組的方法,通過對中心點box的回歸過程,考慮語義一致性得到檢測結果。

2 網絡架構

在該論文中,基于FCOS構建了DDBNet,如下圖所示:

ECCV2020-03

D&R模塊通過將預測的框劃分為邊界進行訓練來重組預測框,該邊界在回歸分支后面進行連接。在訓練階段,一旦邊界框預測在每個像素處回歸,D&R模塊會將每個邊界框分解為四個方向邊界。然后,根據它們與ground truth的實際邊界偏差對同類邊界進行排序。因此,通過重新組合排位邊界,可以期望得到更準確的box框預測,然后利用IoU loss對其進行優化。

D&R模塊由四個步驟組成,如下圖所示:

ECCV2020-04

2.1 分解

將一個預測的box劃分為四個邊界的置信度。然后將四種邊界分為四組,分別是:

left = {l0,l1,...,ln},right = {r0,r1,...,rn},bottom = {b0,b1,..., bn},top = {t0,t1,...,tn}。

2.2 排序

考慮到IoU損失的約束,有利于具有較小并集和較大交集區域的預測框,最佳框預測的IoU損失預計最低。因此,在第二步中可以直接遍歷所有邊界后進行重新排列以獲得最優的框,然而,以這種方式,計算復雜度非常高。為了避免這種暴力方法帶來的繁重計算,本文采用了一種簡單有效的排序策略。對于目標實例的每個邊界集,計算到目標邊界集合的偏差。然后,將每個集合中的邊界按相應的偏差排序,因此,靠近ground truth的邊界比遠處的邊界具有更高的等級。作者發現這種排序策略效果很好,并且排序噪聲不會影響網絡訓練的穩定性

2.3 重組

將具有相同等級的四個集合的邊界重新組合為新框。然后,將分解后的邊界集合和目標邊界集合之間的IoU看作為四個邊界的重組置信度。重組邊界的置信度表示為形狀為N×4的矩陣。

2.4 分配得分

現在得到了原始邊界和重組后的邊界兩組邊界得分。每個邊界的最終置信度是使用兩組邊界得分中的較高得分來分配的,而不是完全使用其中一組。如果重新組合后的低位框包含的邊界離ground truth很遠,這會導致重組后四個邊界的置信度遠低于其原始邊界,這些嚴重漂移的置信度分數會導致訓練階段的梯度反向傳播不穩定,因此選擇得分較高的一組

3 模型訓練

網絡整體的損失函數是:

ECCV2020-05

其中分類損失使用的是Focal Loss,另外兩部分分別是邊框回歸損失和語義一致性損失

3.1 邊框回歸損失

為了進行可靠的網絡訓練,在基于ground truth和最優box以及相應的更好邊界得分估算的IoU損失的監督下來優化每個邊界。邊框回歸損失包括兩個部分:

ECCV2020-06

分別是重組框和原始框與標簽之間的交并比IOU分數,選擇每個邊界的梯度以更新網絡。

3.2 語義一致性損失

在根據語義一致性自主確定像素的標簽后,網絡在學習過程中考慮了每個正向像素的內在重要性,類似于FCOS中的中心度得分。因此,DDBNet網絡能夠強調一個實例中更重要的部分,學習起來更加有效。具體地,將每個像素的內在重要性定義為預測框與ground truth之間的IoU。然后,在內在重要性的監督下,將估計每個像素語義一致性的額外分支添加到網絡中。語義一致性的損失表示為:

ECCV2020-07

4 實驗

該論文作者在COCO數據集上進行了實驗。

4.1 對比實驗

與RCNN系列、yolo系列、ssd等都做了對比實驗,本文的結構優于其他模型。

ECCV2020-08

4.2 消融實驗

作者將D&R 模塊和語義一致性進行了實驗,結果表明加入后效果較好。

ECCV2020-09

4.3 檢測效果

紅色框表示真實值。綠色框表示預測結果,有較高的IOU。黑色框也是預測結果,但IOU值較小。

ECCV2020-10



猜你喜歡:

人工智能之個性化推薦之路

深度相機是什么?深度相機常見技術

如何解決分類中解決類別不平衡問題?

人妻系列无码专区_漂亮人妻被中出中文字幕_人妻中文制服巨乳中文