[論文レビュー] VideoMix: Rethinking Data Augmentation for Video Classification
VideoMix は、ある動画から別の動画へ3Dデータ拡張として動画キューブを貼り付け、ボクセル重なり比率に比例してラベルを混ぜ、アクション認識、局在化、検出タスク全般で一貫した利得を示します。
State-of-the-art video action classifiers often suffer from overfitting. They tend to be biased towards specific objects and scene cues, rather than the foreground action content, leading to sub-optimal generalization performances. Recent data augmentation strategies have been reported to address the overfitting problems in static image classifiers. Despite the effectiveness on the static image classifiers, data augmentation has rarely been studied for videos. For the first time in the field, we systematically analyze the efficacy of various data augmentation strategies on the video classification task. We then propose a powerful augmentation strategy VideoMix. VideoMix creates a new training video by inserting a video cuboid into another video. The ground truth labels are mixed proportionally to the number of voxels from each video. We show that VideoMix lets a model learn beyond the object and scene biases and extract more robust cues for action recognition. VideoMix consistently outperforms other augmentation baselines on Kinetics and the challenging Something-Something-V2 benchmarks. It also improves the weakly-supervised action localization performance on THUMOS'14. VideoMix pretrained models exhibit improved accuracies on the video detection task (AVA).
研究の動機と目的
- ビデオアクション分類器における過学習とオブジェクト/シーンのバイアスを解消する。
- 既存の画像ベースの拡張戦略を動画データで体系的に評価する。
- VideoMix、3Dキューブのカット&ペースト拡張を提案・分析する。
- 複数のデータセットとタスク(認識、局在化、検出)で VideoMix の利点を示す。
- augmentation が時間的/空間的手掛かりとモデルの注意機構に与える影響について洞察を提供する。
提案手法
- 動画データに対する画像拡張を3Dへ一般化し、Mixup/CutMix の概念を時空間次元に拡張する。
- VideoMix を、ある動画のランダムな時空間キューブを別の動画のキューブで置換し、ボクセル比率でラベルを混合する方式として定義する。
- 最良の軸を特定するために、空間・時間・時空間のバリエーションを調査(デフォルトは Spatial VideoMix)。
- SlowOnly、SlowFast、CSN のアーキテクチャと、Kinetics-400、Mini-Kinetics、Something-Something-V2 などのデータセットで広範な実験を実施する。
- ハイパーパラメータ(alpha、適用確率、混合動画の数)でのアブレーションを行い、Mixup、CutMix、RandAugment、Cutout などのベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1画像領域の拡張戦略を動画データへ拡張すると、アクション認識の一般化が向上するか?
- RQ2 augmentation の軸(空間・時間・時空間)のどれが、動画モデルに対して最も強い性能向上をもたらすか?
- RQ3VideoMix は動画データで事前学習した場合、弱教師付きの時間的アクション局在化や下流の検出タスクを改善できるか?
- RQ4VideoMix のハイパーパラメータが性能と学習の安定性に与える影響は?
- RQ5VideoMix の事前学習モデルは AVA アクション検出や他の動画タスクへの転移学習を助けるか?
主な発見
- VideoMix は SlowOnly-50 および SlowFast-50 の Kinetics-400 でトップ1精度を一貫して改善(例:+1.3 ポイントの向上)。
- VideoMix は Something-Something-V2 のトップ1精度を、アーキテクチャに応じて約 +0.9 ~ +0.8 ポイント改善。
- VideoMix は THUMOS’14 における弱教師付き時間的アクション局在化の mAP を Mixup ベースラインより最大 +1.5 ポイント向上。
- VideoMix 事前学習済みウェイトは SlowOnly-50 および SlowFast-50 でそれぞれ AVA アクション検出の mAP を +1.3 ~ +1.7 ポイント改善。
- アブレーションでは、時空間バリエーションの中で Spatial VideoMix が最も効果的であること、時間・空間・時空間のバリアント間で混合動画の数を倍増させたり VideoMix を確率的に適用すると利得が減少することを示している。
- VideoMix はシーンバイアスを低減し、CAM 可視化から広いアクション手掛かりにモデルが注意を向けるようになる傾向を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。