[論文レビュー] MMViT: Multiscale Multiview Vision Transformers
MMViTはマルチスケールの特徴マップとマルチビューのエンコーダをトランスフォーマーボディに導入し、クロスアテンションを介してビューを統合することで音声および画像分類性能を向上させる。
We present Multiscale Multiview Vision Transformers (MMViT), which introduces multiscale feature maps and multiview encodings to transformer models. Our model encodes different views of the input signal and builds several channel-resolution feature stages to process the multiple views of the input at different resolutions in parallel. At each scale stage, we use a cross-attention block to fuse information across different views. This enables the MMViT model to acquire complex high-dimensional representations of the input at different resolutions. The proposed model can serve as a backbone model in multiple domains. We demonstrate the effectiveness of MMViT on audio and image classification tasks, achieving state-of-the-art results.
研究の動機と目的
- トランスフォーマーでマルチスケールの特徴階層を用いて解像度をまたいだ複雑な表現を捉える動機づけ。
- 各スケールで異なる入力ビュー間の情報を融合するためのマルチビュー入力とクロスアテンションを導入。
- MMViTを音声および画像分類タスクの汎用的なバックボーンとして実証。
- MMViTが公開データセットで最先端の結果を達成し、他 modality への転移性を議論。
提案手法
- 音声用のログメル特徴を含む画像と同様に入力を2D画像として表現。
- 選択的カーネル/ストライドの組み合わせでオーバーラップするパッチを用いて、異なる解像度で2つのビューにパッチ化。
- 両ビューの学習可能な時空的位置エンコーディングを計算し、ビュー1へCLSトークンを前置。
- 4つのスケール段階を通して処理を行い、自己-attention、ビューを融合するクロスアテンション、解像度を下げつつチャネルを増やすスケール間自己-attentionを含むブロックを使用。
- ダウンサンプリング前の各スケール段階でビュー間の情報を融合するクロスアテンションブロックを使用。自己-attentionブロックではマルチヘッドプーリングアテンションを採用。
- 標準データ拡張と音声特化拡張(Mixup、CutMix、音声CutMix、SpecAugment、Random Roll)で学習し、音声適応のためにImageNet1Kウェイトをプリトレイン。
実験結果
リサーチクエスチョン
- RQ1マルチスケール・マルチビューのトランスフォーマーアーキテクチャは音声と画像分類の表現を改善できるか?
- RQ2各スケール段階でのビュー間のクロスアテンションは、単一ビューまたは非クロスアテンションのベースラインより測定可能な利得を提供するか?
- RQ3MMViTは標準ベンチマークで最先端の音声および画像トランスフォーマーと比べてどの程度の性能か?
- RQ4 Visionから音声タスクへの転移を含め、単一のMMViTバックボーンはモダリティ間で適応可能か?
主な発見
| Model | Dataset | mAP |
|---|---|---|
| AST | balance | 31.8 |
| MViTv2 | balance | 32 |
| MMViT | balance | 32.2 |
| AST | full | 37.2 |
| MViTv2 | full | 42.4 |
| MMViT | full | 43 |
- MMViTは balanced AudioSetで32.2% mAP、full AudioSetで43% mAPを達成し、報告設定のASTおよびMViTv2ベースラインを上回る。
- MMViTはfull Audiosetで43% mAPを達成し、ASTベースライン(37.2%)およびMViTv2ベースライン(42.4%)を上回る。
- ImageNet1KではMMViTが83.2% Top-1精度に達し、MViTv2の82.7%を上回る。
- 3ビュー入力は精度を82.3%へとわずかに低下させ、追加ビューがより強い正則化を必要とする可能性を示唆。
- MMViTオーディオ実験では音声CutMixが過学習を防ぐために不可欠であり、これがないとアブレーションで報告されたmAPが39%へ低下。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。