[論文レビュー] Two-Stream temporal transformer for video action classification
二流れの動画分類器をTransformerベースのバックボーンで導入し、内容(RGBフレーム)と運動(光フロー)を自己注意機構で共同モデリング。UCF101、HMDB51、Something-Something V2で高い成果を達成。
Motion representation plays an important role in video understanding and has many applications including action recognition, robot and autonomous guidance or others. Lately, transformer networks, through their self-attention mechanism capabilities, have proved their efficiency in many applications. In this study, we introduce a new two-stream transformer video classifier, which extracts spatio-temporal information from content and optical flow representing movement information. The proposed model identifies self-attention features across the joint optical flow and temporal frame domain and represents their relationships within the transformer encoder mechanism. The experimental results show that our proposed methodology provides excellent classification results on three well-known video datasets of human activities.
研究の動機と目的
- Transformerベースの自己注意を内容と運動の表現にまたがって活用し、動画動作認識を改善する動機づけ。
- frameベースと光フロー特徴を統一エンコーダ内で融合する二流れTransformerアーキテクチャを提案。
- 標準ベンチマークで性能を評価し、従来の二流れ手法およびTransformerベース手法と比較する。
提案手法
- 連続フレーム間の光フローをニューラルフロー模型(RAFT)で予測。
- RGBフレームと予測光フローの両方を入力として、時空間自己注意を学習するTransformerエンコーダへ入力。
- 二流れTransformer入力スキーマで二流れを融合し、マルチヘッド注意を用いて共同表現学習。
- 事前学習済みの動画Transformerバックボーン(MViTv1/MViTv2/Swin)を時系列特徴抽出器として使用し、8ヘッドのMHAと最終特徴768チャネルへ適応。
- クロスエントロピー損失で訓練し、ドロップアウトを適用、検証損失に基づく早期停止を採用。
実験結果
リサーチクエスチョン
- RQ1Transformerベースの二流れアーキテクチャは、外観と運動情報を効果的に統合して動作認識を行えるか?
- RQ2RGBと光フロー特徴に対する共同自己注意は、従来の二流れネットワークの融合と比較してどうか?
- RQ3事前学習済みバックボーンを用いた二流れTransformerで、UCF101、HMDB51、Something-Something V2においてどの程度の性能向上が得られるか?
主な発見
| Classifier | Pre-trained | UCF101 | HMDB51 |
|---|---|---|---|
| Two-Stream CNNs [30] | ImageNet | 88.00% | 59.40% |
| OFF [32] | - | 96.00% | 74.20% |
| Two-Stream CNNs [11] | ImageNet | 93.50% | 69.20% |
| Two-Stream I3D [2] | - | 93.40% | 66.40% |
| Two-Stream I3D [2] | Imagenet+Kinetics 400 | 98.00% | 80.70% |
| Two-Stream+LSTM [40] | - | 88.60% | - |
| Two-Stream C3D [27] | - | 91.40% | - |
| Two-Stream TSN [38] | - | 94.00% | 68.50% |
| Three-Stream TSN [38] | - | 94.20% | 69.40% |
| TDD+iDT [37] | - | 91.50% | 65.90% |
| LTC+iDT [35] | - | 91.70% | 64.80% |
| ST-ResNet + IDT [10] | - | 94.60% | 70.30% |
| MViTv1-B finetune (our baseline) [6] | Kinetics-400 | 89.66% | 66.75% |
| MViTv2-S finetune (our baseline) [24] | Kinetics-400 | 92.11% | 73.59% |
| Swin-S finetune (our baseline) [26] | Kinetics-400 | 82.64% | 57.47% |
| Our (MViTv2-S based) | Kinetics-400 | 93.54% | 83.39% |
- 提案する二流れTransformerは、UCF101およびHMDB51のベースラインより大幅な改善を達成し、UCF101では最寄りのベースラインに対して相対的に最大10.9%、HMDB51では最大25.92%の改善を示した。
- Something-Something V2では、データ拡張なしで最大6.82%の絶対的改善を含む顕著な利得を示した。
- RAFTベースの光フローとTransformerによる融合は、MViTv1/MViTv2およびSwinバックボーンと比較してデータセットを跨いでも競争力のある結果を生んだ。
- 二流れの融合は、特徴を単純に結合するのではなく、Transformerエンコーダ内で内容と運動の関係性を学習可能にする。
- 合成データ(FlyingChairs/FlyingThings3D)から推定された光フローは実動画へ一般化可能だが、ノイズのある流れが発生することがあり、流れ推定の改善と共に向上する。
- Kinetics-400で事前学習し、ターゲットデータセットでファインチューニングした小型モデル(MViTv1-B、MViTv2-S、Swin-S)でも優れた成果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。