QUICK REVIEW

[論文レビュー] Memory Enhanced Global-Local Aggregation for Video Object Detection

Yihong Chen, Yue Cao|arXiv (Cornell University)|Mar 26, 2020

Advanced Neural Network Applications参考文献 33被引用数 30

ひとこと要約

MEGA はグローバルな意味情報とローカルな局所化情報を Long Range Memory モジュールと組み合わせて、ポスト-processing なしで ImageNet VID における動画オブジェクト検出を大幅に改善し、最先端の結果を達成します。

ABSTRACT

How do humans recognize an object in a piece of video? Due to the deteriorated quality of single frame, it may be hard for people to identify an occluded object in this frame by just utilizing information within one image. We argue that there are two important cues for humans to recognize objects in videos: the global semantic information and the local localization information. Recently, plenty of methods adopt the self-attention mechanisms to enhance the features in key frame with either global semantic information or local localization information. In this paper we introduce memory enhanced global-local aggregation (MEGA) network, which is among the first trials that takes full consideration of both global and local information. Furthermore, empowered by a novel and carefully-designed Long Range Memory (LRM) module, our proposed MEGA could enable the key frame to get access to much more content than any previous methods. Enhanced by these two sources of information, our method achieves state-of-the-art performance on ImageNet VID dataset. Code is available at \url{https://github.com/Scalsol/mega.pytorch}.

研究の動機と目的

動画全体にわたってグローバルな意味情報とローカルな局所情報の両方を活用して、動画のオブジェクト検出を改善する動機づけ。
短い時間ウィンドウを超える情報を統合するメモリ拡張アーキテクチャを提案する。
過去フレームの特徴を再利用・拡張する長距離メモリ（LRM）を導入する。
グローバル・ローカル・メモリの成分を共同で使用することが検出精度の向上につながることを示す。
速度を維持しつつ、スケーラブルな集約サイズで効率的な推論を提供する。

提案手法

隣接フレームから局所プールを、ランダムに選択されたフレームからグローバルな候補ボックスのプールを定義する。
グローバル情報をローカル特徴へ伝播させる位置情報なし関係モジュールのスタックを使用する（g-stage）。
ローカル特徴を、それらのグローバル強化された対応物と統合する位置ベースの関係モジュールのスタックを使用する（l-stage）。
推論時に過去のフレームから中間特徴をキャッシュし、再利用して有効な時間窓を拡張する長距離メモリ（LRM）を導入する。
MEGA 推論中に、ローカル特徴を M および LRM で強化して RCNN 検出ヘッドの強化特徴を得る。
トレーニングは時系列ドロップアウトを用いて L、G、および M コンポーネントをシミュレートし、拡張特徴上の分類損失と回帰損失を最適化する。

実験結果

リサーチクエスチョン

RQ1グローバルな意味情報とローカルな局所情報の統合を jointly 行うことで、片方の情報のみに基づく手法より動画オブジェクト検出を改善できるか？
RQ2長距離メモリモジュールの導入は、計算コストが過度に高くならずに実質的に有効な時間的受容野を拡張するか？
RQ3グローバル・ローカル・メモリコンポーネントを排除した場合、最終検出精度への寄与はどうなるか？
RQ4MEGA における集約スケールと実行時間のトレードオフは？

主な発見

手法	バックボーン	ローカル	グローバル	mAP (%)
MEGA (ours)	ResNet-101	Yes	Yes	82.9
MEGA (ours)	ResNeXt-101	Yes	Yes	84.1
MEGA (ours)	ResNet-101 (no post-processing)	Yes	Yes	84.5

MEGA は ResNet-101 で ImageNet VID において 82.9% mAP を達成し、同じバックボーンでポスト処理なしでは 84.5% mAP を達成。
MEGA は ResNeXt-101 バックボーンで 85.4% mAP に到達し、従来手法を上回る。
アブレーション研究により、グローバルまたはローカル成分のいずれかを削除すると性能が低下することが示され、両方の必要性が検証される。
Long Range Memory（LRM）を組み込むことで、類似のローカル/グローバル集約を持つベースモデルよりも大幅に性能が向上する。
メモリを搭載した MEGA は、（ローカルでは最大で N_l × T_m + T_l、グローバルでは N_l × T_m + T_g）といった大きな有効な集約サイズを、実行時の比例的な増加なしに提供する。
オンライン設定の結果、制限された Look-back 設定下でも MEGA は従来手法を上回ることを示しており（オンライン 81.9% mAP に対し OGEMN は 80.0% と報告されている）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。