[論文レビュー] Sequence Level Semantics Aggregation for Video Object Detection
SELSAはビデオ物体検出のシーケンスレベルの意味特徴量を集約し、ビデオを全シーケンスにわたる意味的隣人のバ bag として扱い、 heavy post-processing なしで ImageNet VID の最先端の mAP を達成します。
Video objection detection (VID) has been a rising research direction in recent years. A central issue of VID is the appearance degradation of video frames caused by fast motion. This problem is essentially ill-posed for a single frame. Therefore, aggregating features from other frames becomes a natural choice. Existing methods rely heavily on optical flow or recurrent neural networks for feature aggregation. However, these methods emphasize more on the temporally nearby frames. In this work, we argue that aggregating features in the full-sequence level will lead to more discriminative and robust features for video object detection. To achieve this goal, we devise a novel Sequence Level Semantics Aggregation (SELSA) module. We further demonstrate the close relationship between the proposed method and the classic spectral clustering method, providing a novel view for understanding the VID problem. We test the proposed method on the ImageNet VID and the EPIC KITCHENS dataset and achieve new state-of-the-art results. Our method does not need complicated postprocessing methods such as Seq-NMS or Tubelet rescoring, which keeps the pipeline simple and clean.
研究の動機と目的
- VID の改善を近接フレームの集約ではなく全シーケンス情報を活用して動機づける。
- ROI特徴を全ビデオを跨いで意味的類似性で集約する SELSA モジュールを提案する。
- スペクトルクラスタリングと関連づけて VID をクラスタリングベースで解釈する。
- エンドツーエンド訓練で大規模データセット(ImageNet VID, EPIC KITCHENS)での性能向上を示す。
- Seq-NMS のようなポスト処理への依存を減らすことを示す。
提案手法
- フレーム全体の ROI 提案を抽出する。
- generalized cosine similarity を用いてフレーム間の提案間の意味的類似性を計算する。
- シーケンス全体で意味的に類似する提案からの特徴を softmax 正規化ウェイトで集約する。
- Faster R-CNN バックボーンに SELSA モジュールを挿入し、エンドツーエンドで訓練する。
- 提案がグラフを形成するスペクトルクラスタリングの解釈を提供し、集約がクラス内分散を減らす。
- グラフ畳み込みネットワークとの関係を議論し、手法が分離ブロック対角線の T を促すことを示す。
実験結果
リサーチクエスチョン
- RQ1全シーケンス意味的集約は光学的フローや再帰的時系列モデルに依存せず VID を改善できるか。
- RQ2SELSA は多様な外観を持つビデオフレーム間でのクラス内特徴分散を効果的に低減できるか。
- RQ3SELSA はエンドツーエンド訓練と Seq-NMS のような重いポスト処理なしに適合するか。
- RQ4SELSA の ImageNet VID および EPIC KITCHENS における他の最先端 VID 手法と比較した性能はどうか。
主な発見
| Method | Backbone | mAP (%) |
|---|---|---|
| FGFA | ResNet-101 | 76.3 |
| D(および T 損失) | - | 75.8 |
| MANet | - | 78.1 |
| 私たちの手法 | - | 80.25 |
| FGFA* | ResNet-101 | 78.4 |
| 私たちの手法* | ResNet-101 | 80.3 |
| ST-Lattice* | - | 79.6 |
| D&T* | - | 79.8 |
| STMN*+ | - | 80.5 |
| 私たちの手法* | - | 80.54 |
| 私たちの手法 △ | - | 82.69 |
- S EL SA は ResNet-101 でビデオレベルのポスト処理なしに ImageNet VID で 80.25 の mAP を達成し、いくつかのフローに基づく手法を上回る。
- ResNeXt-101 では 83.11 の mAP に達し、ポスト処理なしでも同時期のいくつかを上回る。
- より多くのフレームをサンプリングし全シーケンスからの意味的隣人を用いると、特に高速運動で大きな利得が得られる(例: fast mAP が 61.38 へ改善)。
- アブレーション実験では、全シーケンスを跨る意味的集約を用いた SELSA が単一フレームおよびフレーム内集約の変種を著しく上回る。
- データ拡張を追加すると性能がさらに向上し、例えば VID データ拡張を用いた場合には ResNet-101 で +2.44 mAP。
- Seq-NMS ポスト処理は SELSA に対して追加的な利得をほとんど提供せず、モジュールがすでにシーケンスレベルの情報を捉えていることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。