[論文レビュー] DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution
DetectoRSはRecursive Feature PyramidとSwitchable Atrous Convolutionを組み合わせ、バックボーンを強化し、オブジェクト検出、インスタンスセグメンテーション、パノプティックセグメンテーションでCOCOの最先端性能を達成。
Many modern object detectors demonstrate outstanding performances by using the mechanism of looking and thinking twice. In this paper, we explore this mechanism in the backbone design for object detection. At the macro level, we propose Recursive Feature Pyramid, which incorporates extra feedback connections from Feature Pyramid Networks into the bottom-up backbone layers. At the micro level, we propose Switchable Atrous Convolution, which convolves the features with different atrous rates and gathers the results using switch functions. Combining them results in DetectoRS, which significantly improves the performances of object detection. On COCO test-dev, DetectoRS achieves state-of-the-art 55.7% box AP for object detection, 48.5% mask AP for instance segmentation, and 50.0% PQ for panoptic segmentation. The code is made publicly available.
研究の動機と目的
- 物体検出のために二度見て考えるバックボーンの動機付けと実装。
- マクロレベルの再帰を特徴ピラミッドに導入し、多尺度表現を豊かにする。
- マイクロレベルのSwitchable Atrous Convolutionを導入し、受容野をスケール間で適応させる。
- COCOで検出、セグメンテーション、パノプティックタスクの性能向上を実証。
- 事前学習済みバックボーンと互換性のあるプラグアンドプレイ方式を提供。
提案手法
- Recursive Feature Pyramid (RFP)を提案し、上位ダウンFPN層からのフィードバックを下位バックボーンに追加して多重パスのバックボーン表現を作成。
- Switchable Atrous Convolution (SAC)を導入し、複数の atrous レートで特徴を畳み、場所依存のスイッチで出力を融合。
- RFP特徴をバックボーンと統合・融合する接続モジュールとしてASPPを使用。
- アンロールしたRFPステップ間で特徴を更新・ブレンドするフュージョンモジュールを適用。
- バックボーンの3x3畳み込みをSACに置換し、重みロック機構を備えた事前学習済みネットワークからの簡易変換を可能にする。
- COCOでの利得を評価するためHTCへRFPとSACを実験的に統合。
実験結果
リサーチクエスチョン
- RQ1バックボーンのフィードバック(RFP)はオブジェクト検出のためのマルチスケール表現をどのように改善できるか?
- RQ2Switchable Atrous Convolution (SAC)は再訓練なしでオブジェクトスケール全体の検出を改善できるか?
- RQ3マクロレベル(RFP)とマイクロレベル(SAC)設計の標準検 detectorsへの組み合わせ効果は?
- RQ4RFPとSACはCOCOでの境界ボックス検出、インスタンスセグメンテーション、パノプティックセグメンテーションにどう影響するか?
主な発見
| 方法 | バックボーン | TTA | AP_bbox | AP_50 | AP_75 | AP_S | AP_M | AP_L | 備考 |
|---|---|---|---|---|---|---|---|---|---|
| HTC | ResNet-50 | 42.0 | 60.8 | 45.5 | 23.7 | 45.5 | 56.4 | COCO val2017のHTCベースライン | |
| RFP | ResNet-50 | 46.2 | 65.1 | 50.2 | 27.9 | 50.3 | 60.3 | RFPはベースラインを約4.2 AP bbox向上 | |
| RFP + sharing | ResNet-50 | 45.4 | 64.1 | 49.4 | 26.5 | 49.0 | 60.0 | RFPは共有ブロックを使用 | |
| RFP - aspp | ResNet-50 | 45.7 | 64.2 | 49.6 | 26.7 | 49.3 | 60.5 | RFPはASPPなし | |
| RFP - fusion | ResNet-50 | 45.9 | 64.7 | 50.0 | 27.0 | 50.1 | 60.1 | 融合なしのRFPバリアント | |
| RFP + 3X | ResNet-50 | 47.5 | 66.3 | 51.8 | 29.0 | 51.6 | 61.9 | 3回のアンロールを用いたRFP | |
| SAC | ResNet-50 | 46.3 | 65.8 | 50.2 | 27.8 | 50.6 | 62.4 | Switchable Atrous Convolution | |
| SAC - DCN | ResNet-50 | 45.3 | 65.0 | 49.3 | 27.5 | 48.7 | 60.6 | 変形可能畳み込みなしのSAC | |
| SAC - DCN - global | ResNet-50 | 44.3 | 63.7 | 48.2 | 25.7 | 48.0 | 59.6 | グローバルコンテキストのみのSAC | |
| SAC - DCN - locking | ResNet-50 | 44.7 | 64.4 | 48.7 | 26.0 | 48.7 | 59.0 | SACの重みをロック | |
| SAC - DCN + DS | ResNet-50 | 45.1 | 64.6 | 49.0 | 26.3 | 49.3 | 60.1 | デュアルスイッチバリアント |
- RFPは箱APを42.0から46.2へ向上、ResNet-50ベースラインで。
- SACは箱APを46.3へ、ResNet-50で、強いマイクロレベル利得を示す。
- 組み合わせのDetectoRS (RFP + SAC) with ResNeXt-101-64x4d は COCO test-dev で 55.7% box AP と 48.5% mask AP を達成。
- DetectoRSは最先端の55.7% box APと48.5% mask AP (ResNeXt-101-64x4d使用) および panoptic segmentationの50.0 PQをCOCO test-devで達成。
- RFP + SACはHTCベースラインと比較して収束を速く、トレーニング損失の改善も顕著。
- 可視化は学習されたスイッチがオブジェクトスケールと一致し、SACは大きな物体に対して受容野を拡大。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。