[論文レビュー] Relation Networks for Object Detection
本論文は、外観と幾何を用いて検出された物体間の相互作用をモデル化するオブジェクト関係モジュールを提案し、インスタンス認識と重複除去を含む、CNNベースのパイプラインにおけるエンドツーエンドの物体検出性能の向上を実現します。
Although it is well believed for years that modeling relations between objects would help object recognition, there has not been evidence that the idea is working in the deep learning era. All state-of-the-art object detection systems still rely on recognizing object instances individually, without exploiting their relations during learning. This work proposes an object relation module. It processes a set of objects simultaneously through interaction between their appearance feature and geometry, thus allowing modeling of their relations. It is lightweight and in-place. It does not require additional supervision and is easy to embed in existing networks. It is shown effective on improving object recognition and duplicate removal steps in the modern object detection pipeline. It verifies the efficacy of modeling object relations in CNN based detection. It gives rise to the first fully end-to-end object detector.
研究の動機と目的
- 深いCNNにおける物体間の関係をモデル化することが検出性能を向上させることを動機づけ、検証する。
- 追加の監視なしで既存の検 detectors に統合可能な軽量で現場で使えるオブジェクト関係モジュールを開発する。
- インスタンス認識と重複除去の改善を示し、エンドツーエンドの物体検出を実現する。
- 提案手法が提案と認識、重複除去ステージを同時に最適化するエンドツーエンド訓練の証拠を提供する。
提案手法
- 注意機構をシーケンス要素ではなく物体の集合上で動作させるよう拡張する。
- 学習された外観ベースの注意と幾何ベースの翻訳不変ウェイトを組み合わせて物体関係特徴量を計算する。
- 複数のリレーションヘッドを用いた多関係スキームを使用して多様な相互作用を捉え、入力の外観特徴と関係特徴を統合する。
- 従来のNMSを、すべての提案とスコアを推論する学習可能な重複除去ネットワークに置き換え、ランク特徴と空間幾何の両方を使用する。
- 関係モジュールを back-bone と head ネットワークへ逆伝播することで、エンドツーエンド訓練を可能にする。
実験結果
リサーチクエスチョン
- RQ1注意のようなオブジェクト関係モジュールは標準的な領域ベース検出器に組み込まれたときにインスタンス認識を改善できるか?
- RQ2ペアワイズな物体幾何と外観の関係をモデリングすることは従来のNMS/Soft-NMSを超える重複除去の改善につながるか?
- RQ3関係モジュールが提案、認識、重複除去を同時に最適化する場合、エンドツーエンド訓練は実現可能で有益か?
- RQ4関係の数と関係モジュールの数は検出性能と計算コストにどのような影響を与えるか?
主な発見
| ヘッド | mAP | mAP 50 | mAP 75 | #パラメータ | FLOPS |
|---|---|---|---|---|---|
| (a) 2fc (1024) | 29.6 | 50.9 | 30.1 | 38.0M | 80.2B |
| (b) 2fc (1432) | 29.7 | 50.3 | 30.2 | 44.1M | 82.0B |
| (c) 3fc (1024) | 29.0 | 49.4 | 29.6 | 39.0M | 80.5B |
| (d) 2fc+res {r1,r2}={1,1} | 29.9 | 50.6 | 30.5 | 44.0M | 82.1B |
| (e) 2fc+global | 29.6 | 50.3 | 30.8 | 38.2M | 82.2B |
| (f) 2fc+RM {r1,r2}={1,1} | 31.9 | 53.7 | 33.1 | 44.0M | 82.6B |
| (g) 2fc (1024) + 2x | 30.4 | 51.7 | 31.4 | 50.2M | 83.8B |
| (h) 2fc+2x +RM {r1,r2}={1,1} | 32.5 | 54.3 | 34.1 | 56.2M | 86.2B |
| (i) 2fc+res {r1,r2}={2,2} | 29.8 | 50.5 | 30.5 | 50.0M | 84.0B |
| (j) 2fc+RM {2,2} | 32.5 | 54.0 | 33.8 | 50.0M | 84.9B |
- 物体関係モジュールを組み込むと、ベースラインの2fcヘッドに比べ顕著な改善が得られ、単一の関係モジュールを使用した場合のmAPは29.6から31.9へ、追加構成で最大32.5まで改善される。
- 複数の関係ヘッドと関係モジュールを使用するとさらなる改善が得られ、2fc+RMの1,1構成で32.5 mAP、特定の設定で2x コンテキストとRMを組み合わせると最大34.1 mAPに達する。
- 幾何ウェイトは重要であり、より単純なバリアントに置換すると性能が低下することが示され、翻訳不変な学習済み幾何埋め込みを含む最適設計が含まれる。
- 提案された重複除去ネットワークは関係モジュールとともに訓練され、従来のNMS/Soft-NMSよりも精度と速度の両方で優れており、エンドツーエンド訓練を可能にする。
- エンドツーエンド訓練は提案、認識、重複除去を共同で最適化することで、独立して訓練された場合より認識精度を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。