[論文レビュー] Deformable Convolutional Networks
畳み込みを変形可能にし、変形可能RoIプーリングを導入して、CNNに密で入力依存の空間変換を可能にし、検出とセグメンテーションのタスクで重いオーバーヘッドなしに性能を向上させる。
Convolutional neural networks (CNNs) are inherently limited to model geometric transformations due to the fixed geometric structures in its building modules. In this work, we introduce two new modules to enhance the transformation modeling capacity of CNNs, namely, deformable convolution and deformable RoI pooling. Both are based on the idea of augmenting the spatial sampling locations in the modules with additional offsets and learning the offsets from target tasks, without additional supervision. The new modules can readily replace their plain counterparts in existing CNNs and can be easily trained end-to-end by standard back-propagation, giving rise to deformable convolutional networks. Extensive experiments validate the effectiveness of our approach on sophisticated vision tasks of object detection and semantic segmentation. The code would be released.
研究の動機と目的
- CNNにおける固定された幾何構造が幾何変換のモデリングを制限する点を動機づける。
- データから密なサンプリングオフセットを学習する deformable convolution の提案。
- 対象の形状に合わせてプール領域を適応させる deformable RoI pooling の提案。
- 変形可能モジュールが標準の対応モジュールの代わりになり、エンドツーエンドで訓練できることを示す。
提案手法
- Deformable convolution は通常のサンプリンググリッドに各位置ごとの学習可能な2Dオフセットを追加する。
- オフセットは並列の畳み込み層によって生成され、双線形補間を通じた誤差逆伝播でエンドツーエンドに学習される。
- Deformable RoI pooling は RoI プーリングのビンに学習可能なオフセットを追加し、分数位置には双線形補間を用いる。
- Deformable PS RoI pooling はクラス特有のスコアマップと全結合畳み込みオフセット学習を用いて deformable RoI pooling を拡張する。
- 実験では分割と検出パイプライン全体で ResNet-101 と Aligned-Inception-ResNet のバックボーンと deformable モジュールを統合する。

実験結果
リサーチクエスチョン
- RQ1学習可能な空間オフセットは、手作りのモジュールを用いずに CNN が大きな、または非剛性の幾何変換をモデリングできるようにするか?
- RQ2deformable convolution と deformable RoI pooling は標準ベンチマーク全体でセグメンテーションと物体検出タスクの性能を改善するか?
- RQ3密集予測設定で意味のあるオフセットを学習するには、双線形補間を用いたエンドツーエンド訓練だけで足りるか?
主な発見
- deformable モジュールは物体のサイズ・形状と相関する適応型受容野を可能にする。
- deformable RoI pooling の追加は位置推定を改善し、特に非剛性物体で効果が大きい。
- deformable convolution と deformable RoI pooling を併用すると、セグメンテーションおよび検出のベンチマークで標準のCNNより顕著な改善を得られる。
- オフセットはエンドツーエンドで学習され、通常は小さく、初期化をゼロにすることで学習開始時の影響を最小化する。
- Deformable ConvNets は追加のパラメータと計算を控えめに導入しつつ、精度を大幅に向上させる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。