QUICK REVIEW

[論文レビュー] One-Shot Object Detection with Co-Attention and Co-Excitation

Ting-I Hsieh, Yi‐Chen Lo|arXiv (Cornell University)|Nov 28, 2019

Advanced Neural Network Applications被引用数 116

ひとこと要約

本論文は、非局所相互注意と絞り込みと共同興奮（CoAE）フレームワークを用いたワンショット物体検出を提案し、ファインチューニングなしで未知クラスの物体を検出する。VOCとCOCOで強力な結果を達成する。

ABSTRACT

This paper aims to tackle the challenging problem of one-shot object detection. Given a query image patch whose class label is not included in the training data, the goal of the task is to detect all instances of the same class in a target image. To this end, we develop a novel {\em co-attention and co-excitation} (CoAE) framework that makes contributions in three key technical aspects. First, we propose to use the non-local operation to explore the co-attention embodied in each query-target pair and yield region proposals accounting for the one-shot situation. Second, we formulate a squeeze-and-co-excitation scheme that can adaptively emphasize correlated feature channels to help uncover relevant proposals and eventually the target objects. Third, we design a margin-based ranking loss for implicitly learning a metric to predict the similarity of a region proposal to the underlying query, no matter its class label is seen or unseen in training. The resulting model is therefore a two-stage detector that yields a strong baseline on both VOC and MS-COCO under one-shot setting of detecting objects from both seen and never-seen classes. Codes are available at https://github.com/timy90022/One-Shot-Object-Detection.

研究の動機と目的

ターゲット画像中の未 seen クラスのパッチを用いて未 seen クラスの物体を検出するという課題に対処する。
クエリとターゲットの情報を結合してワンショット検出のための領域提案を改善する。
テスト時に seen クラスラベルを必要とせず、提案とクエリの類似性をランキングするメトリック学習風のメカニズムを開発する。
訓練はクラス非依存で、未知の物体検出を堅牢な類似性メトリクスを学習することで可能にする。

提案手法

非局所的相互注意を用いて Faster R-CNN を拡張し、クエリ画像とターゲット画像を結ぶ非局所的領域提案（co-attention）を生成する。
クエリとターゲットの特徴チャネルを再重み付けするために絞り込みと共同興奮（SCE）を導入し、特徴の適合を改善する（GAP、SEブロックと同様の2層のFC/MLP）。
コーフィiringにより、F(p) からクエリ特徴 q、F(I) から領域特徴 r を計算し、2層MLPとマージンベースのランキング損失を用いて提案とクエリの類似度メトリクスを学習する。
Faster R-CNN の L_CE および L_Reg 損失に加えて、マージンベースのランキング損失 L_MR（m^+ = 0.7、m^- = 0.3）を用いて、訓練データの前景/背景ラベリングを IoU>0.5 に基づいて行う。
バックボーン初期化で COCO/VOC クラスを見ないように、725 クラスの削減済み ImageNet 事前訓練を採用し、完全な 1000 クラス事前訓練と比較する。

実験結果

リサーチクエスチョン

RQ1クエリパッチとターゲット画像間のコ-attention はワンショット検出の領域提案品質を改善できるか？
RQ2絞り込みと共同興奮機構は未知クラス検出の相関特徴チャネルを強調するのに役立つか？
RQ3マージンベースのランキング損失は、 seen/未知クラスの提案とクエリの間の頑健な類似度メトリクスを implicitly 学習できるか？

主な発見

CoAE フレームワークは VOC および COCO データセット上でワンショット検出の強力なベースラインを提供する。
アブレーション実験は、非局所的な(co-attention) と SCE(co-excitation) の両方の要素が性能を大幅に向上させ、両方を併用した場合に累積的な改善が見られることを示す。
マージンベースのランキング損失は、提案の望ましいランキングを学習することで追加的で、しかし中程度の改善を提供する。
COCO の場合、Ours (1k) は baseline SiamMask に対して AP50 の改善を各スプリットで達成し、未知クラスへの良好な一般化を示す。
可視化は、非局所提案がクエリの影響を受けるターゲット領域に焦点を合わせ、共同興奮は意味のあるクラス別重み分布を示す（例：動物 vs. 車丼グループ）。
未知クラス検出下でも手法は堅牢で、VOC および COCO のベースラインより改善した結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。