QUICK REVIEW

[論文レビュー] Long-Term Feature Banks for Detailed Video Understanding

Chao-Yuan Wu, Christoph Feichtenhofer|arXiv (Cornell University)|Dec 12, 2018

Human Pose and Action Recognition参考文献 54被引用数 33

ひとこと要約

本論文は、3D畳み込みニューラルネットワーク（3D CNN）の性能を向上させるために、動画全体にわたって時間インデックスが付与された支援的視覚特徴（例：物体検出）を格納する長期特徴バンク（LFB）を導入する。短時間特徴学習から長距離文脈を分離することで、LFBは注意メカニズムを用いた長距離文脈統合により、AVA、EPIC-Kitchens、Charadesの3つのベンチマークでアクション認識および局所化性能を向上させ、最先端の性能を達成する。

ABSTRACT

To understand the world, we humans constantly need to relate the present to the past, and put events in context. In this paper, we enable existing video models to do the same. We propose a long-term feature bank---supportive information extracted over the entire span of a video---to augment state-of-the-art video models that otherwise would only view short clips of 2-5 seconds. Our experiments demonstrate that augmenting 3D convolutional networks with a long-term feature bank yields state-of-the-art results on three challenging video datasets: AVA, EPIC-Kitchens, and Charades.

研究の動機と目的

既存の動画モデルが推論に2〜5秒の短いクリップに依存するという制限を解消し、長距離文脈的手がかりを欠落させることを防ぐ。
短時間特徴学習から長期間文脈を分離することで、動画理解を向上させ、より洗練された時間的モデリングを実現する。
物体検出やその他の表現を格納できる柔軟な補助的特徴バンクを構築し、多様な動画タスクに応用可能にする。
長期間文脈が、スパatiotemporalアクション局所化、動詞／名詞分類、動画分類の性能向上に顕著に寄与することを実証する。

提案手法

長期特徴バンク（LFB）は、事前学習済みの検出器（例：Faster R-CNN）を用いて事前に抽出された、時間インデックスが付与された特徴（例：物体検出）を動画全体にわたって格納する。
LFBは、3D CNNと注意メカニズムを介して統合され、現在のクリップ特徴とバンク内の関連する長距離特徴をアライメントする。
注意メカニズムは、3D CNNからのクエリ特徴（query features）とLFBからのキー特徴（key features）を比較することで、文脈に応じた重みを計算し、動的かつ適応的な長距離文脈の利用を可能にする。
出力タイプ（フレームレベル、動画レベル、スパティオトロピカルアクション局所化）に応じて注意機構と予測ヘッドを調整することで、複数の出力形式をサポートする。
LFBを事前学習済みバックボーンに追加する際の過学習を防ぐために、2段階の訓練スケジュールを採用する。
AVAでは、STO（自己注意＋時系列順序）モジュールの過学習を防ぐために、訓練中に「ドライバ」正則化技術を適用する。

実験結果

リサーチクエスチョン

RQ1長期間の視覚的文脈は、短いクリップのみを処理する3D CNNにおいて、動画理解を顕著に向上させることができるか？
RQ2長期間特徴の格納を短時間特徴学習から分離することで、多様な動画理解タスクにおける性能にどのような影響を与えるか？
RQ3標準の3D CNNと比較して、LFBはスパティオトロピカルアクション局所化、動詞／名詞分類、動画分類のタスクでどの程度性能を向上させるか？
RQ4LFBによる向上は、より強力なバックボーンやより優れた短時間特徴学習による向上と補完的か？
RQ5複雑で長距離依存性を持つデータセットにおいて、LFBは過学習を効果的に抑制できるか？

主な発見

AVAでは、標準の3D CNNと比較してmAPが1.5～2.0ポイント向上し、スパティオトロピカルアクション局所化で最先端の性能を達成した。
EPIC-Kitchensでは、LFBにより動詞認識精度が2%以上、名詞認識精度が3%以上向上した。
Charadesでは、R101-I3D-NLバックボーンを用いてmAPが42.5%を達成し、ベースライン3D CNN（38.3%）およびSTO（41.0%）を大きく上回った。
アブレーションスタディにより、性能向上は単にバックボーンの向上によるものではなく、長期間文脈統合によるものであることが確認され、LFBとバックボーン強化の向上は補完的であることが示された。
AVAのSTOモジュールにおける訓練時に「ドライバ」特徴を用いることで、過学習が効果的に抑制され、一般化性能が向上した。
LFBはフレームレベル、動画レベル、スパティオトロピカル局所化の多様なタスクに効果的に適用可能であり、広範な適用可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。