[論文レビュー] Hybrid Knowledge Routed Modules for Large-scale Object Detection
HKRMは、領域間グラフ上で推論する2つの知識駆動モジュール(明示的および暗黙的)を導入し、大規模物体検出を向上させる。属性、関係、空間的知識を活用することで、VGおよびADEデータセットで顕著な改善を達成する。
The dominant object detection approaches treat the recognition of each region separately and overlook crucial semantic correlations between objects in one scene. This paradigm leads to substantial performance drop when facing heavy long-tail problems, where very few samples are available for rare classes and plenty of confusing categories exists. We exploit diverse human commonsense knowledge for reasoning over large-scale object categories and reaching semantic coherency within one image. Particularly, we present Hybrid Knowledge Routed Modules (HKRM) that incorporates the reasoning routed by two kinds of knowledge forms: an explicit knowledge module for structured constraints that are summarized with linguistic knowledge (e.g. shared attributes, relationships) about concepts; and an implicit knowledge module that depicts some implicit constraints (e.g. common spatial layouts). By functioning over a region-to-region graph, both modules can be individualized and adapted to coordinate with visual patterns in each image, guided by specific knowledge forms. HKRM are light-weight, general-purpose and extensible by easily incorporating multiple knowledge to endow any detection networks the ability of global semantic reasoning. Experiments on large-scale object detection benchmarks show HKRM obtains around 34.5% improvement on VisualGenome (1000 categories) and 30.4% on ADE in terms of mAP. Codes and trained model can be found in https://github.com/chanyn/HKRM.
研究の動機と目的
- 一般常識知識を活用して、大量のラベル空間と長尾分布下で堅牢な物体検出を促進する。
- 領域提案全体でのグローバルな意味論的推論を可能にする軽量なプラグインモジュールを開発する。
- 推論を導くための明示的知識(属性、関係)と暗黙的知識(空間/レイアウト)の形式を探求する。
- 遮蔽、小さな物体、希少カテゴリにおける検出を知識対応グラフを統合することで向上させることを示す。
提案手法
- 2つの知識モジュールを定義する:明示的(言語由来の制約)と暗黙的(空間配置などのラベルなし制約)。
- 各知識形ごとに適応的な領域間グラフを構築し、外部知識グラフQを条件としてMLPでエッジを学習する。
- 明示モジュール:エッジe_ijを e_ij = MLP_Q(alpha(f_i, f_j)) によって学習し、Q内の真のクラス関係によって教師付けする;正規化されたエッジウェイトを用いて特徴を伝播して f' を得、検出のために連結する。
- 暗黙モジュール:MLPを用いて複数の領域グラフを学習し、暗黙の空間的制約を捉える; W_g の共有変換でグラフを結合して g' を生成する。
- 全モジュールの出力(f'_a、f'_r、g')を結合し、最終結果のために境界ボックス回帰および分類層に入力する。
- Faster R-CNN風アーキテクチャにHKRMを組み込み、VG(1000/3000クラス)およびADEで評価して汎化性を示す。
実験結果
リサーチクエスチョン
- RQ1領域ベースの検出器に組み込んだ場合、明示的知識モジュールと暗黙知識モジュールは大規模な物体検出を改善できるか?
- RQ2異なる知識形(属性、関係、空間レイアウト)は、特に希少クラスに対して検出性能に異なる寄与をするか?
- RQ3外部知識に導かれた画像ごとに適応された領域グラフは、ベースラインの領域ごとの予測よりもグローバルな推論と精度を向上させるか?
- RQ4HKRMはデータセット間で移植可能か(VG, ADE)および多数クラスに対してスケーラブルか?
主な発見
- HKRMはFaster R-CNNベースラインに対して大きなmAPの改善をもたらす:VGで1000カテゴリ時に約34.5%、ADEで30.4%の改善。
- VGで3000カテゴリの場合も26.5%の改善を達成。
- 明示的知識(属性/関係)と暗黙知識(空間)それぞれが性能向上に寄与し、組み合わせたHKRMが最も大きな改善を提供する。
- 希少カテゴリでは顕著な改善を示し、上位の最頻度が低い150クラスで平均mAP約1.5%の改善。
- PASCAL VOCおよびMS COCOでは、3つの知識モジュールすべてを用いたHKRMがベースラインを上回る(例:VOC: 78.8% mAP 対 baseline 75.1%、COCO: 37.8% mAP 対 baseline 34.2%)。
- HKRMは軽量なままで(パラメータを約2%追加)既存の検出器に容易に組み込める。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。