[論文レビュー] AST: Audio Spectrogram Transformer
本論文は AST を導入する。畳み込みを用いない純粋な attention ベースの音声分類モデルであり、AudioSet、ESC-50、Speech Commands V2 で最先端の結果を、事前学習済み Vision Transformer 重みの転移によって達成する。
In the past decade, convolutional neural networks (CNNs) have been widely adopted as the main building block for end-to-end audio classification models, which aim to learn a direct mapping from audio spectrograms to corresponding labels. To better capture long-range global context, a recent trend is to add a self-attention mechanism on top of the CNN, forming a CNN-attention hybrid model. However, it is unclear whether the reliance on a CNN is necessary, and if neural networks purely based on attention are sufficient to obtain good performance in audio classification. In this paper, we answer the question by introducing the Audio Spectrogram Transformer (AST), the first convolution-free, purely attention-based model for audio classification. We evaluate AST on various audio classification benchmarks, where it achieves new state-of-the-art results of 0.485 mAP on AudioSet, 95.6% accuracy on ESC-50, and 98.1% accuracy on Speech Commands V2.
研究の動機と目的
- 強力な音声分類性能にCNNが必要かを評価する。
- スペクトログラム上で動作し、長距離の文脈を捉える純粋な attention ベースのモデルを開発する。
- ImageNet で事前学習された Vision Transformer (ViT) から AST への転移学習を探る。
- 複数の音声データセットに対して、AST を CNN ベースおよび CNN-attention ハイブリッドモデルと比較する。
提案手法
- log-Mel スペクトログラムをオーバーラップする 16×16 パッチに分割し、線形変換で768次元のパッチ埋め込みに投影する。
- 訓練可能な768次元の位置埋め込みを追加し、[CLS] トークンを先頭に置いて12層・12ヘッドの Transformer エンコーダへの入力を形成する。
- [CLS] トークンの出力を線形層とシグモイド活性で分類に用いる。
- ImageNet 事前学習済み ViT 重みを、入力チャネルの重みを平均化してASTに適合させ、可変長入力に対して位置埋め込みを補間する。
- ImageNet の事前学習、データ拡張(mixup、SpecAugment風のマスキング)とモデルアベレージ/アンサンブルで性能を向上させる。
- Balanced/Full AudioSet での転移学習効果と、ESC-50 および Speech Commands V2 への適用を評価する。

実験結果
リサーチクエスチョン
- RQ1畳み込みなしの純粋な attention ベースのモデルは、音声分類で CNN ベースおよび CNN-attention ハイブリッドアーキテクチャと同等以上を達成できるか。
- RQ2ImageNet で事前学習された Vision Transformer からの転移学習は、AST へ適用した場合音声分類性能を向上させるか。
- RQ3可変長入力で、ASTは多様な音声データセット(AudioSet、ESC-50、Speech Commands V2)でどう性能を発揮するか。
- RQ4AST の性能に最も影響を与える設計選択(パッチサイズ/オーバーラップ、位置埋め込みの適応、パッチ形状)は何か。
主な発見
| Model | Architecture | Balanced mAP | Full mAP |
|---|---|---|---|
| Baseline [15] | CNN+MLP | - | - |
| PANNs [7] | CNN+Attention | 0.278 | 0.439 |
| PSLA [8] (Single) | CNN+Attention | 0.319 | 0.444 |
| PSLA (Ensemble-S) | CNN+Attention | 0.345 | 0.464 |
| PSLA (Ensemble-M) | CNN+Attention | 0.362 | 0.474 |
| AST (Single) | Pure Attention | 0.347 ± 0.001 | 0.459 ± 0.000 |
| AST (Ensemble-S) | Pure Attention | 0.363 | 0.475 |
| AST (Ensemble-M) | Pure Attention | 0.378 | 0.485 |
- AST は AudioSet で、Ensemble Full-set の mAP が 0.485、単一モデルの mAP が 0.459 で最先端の結果を達成。
- Balanced と Full の両方の設定で、AST は従来の CNN および CNN-attention ハイブリッドを上回る。
- ESC-50 では、AST-S(ImageNet 事前学習のみ)で 88.7% の正確度、AST-P で 95.6% の正確度を達成し、両設定で SOTA を上回る。
- Speech Commands V2 では、AST-S が 98.11%、AST-P が 97.88% の正確度を達成し、このタスクで最良の性能を得るには必ずしも ImageNet+AudioSet の事前学習が必要でない。
- ImageNet 事前学習は性能を顕著に向上させ、特に小規模なドメインデータで顕著。評価された ViT 重みの中で DeiT ベースの重みが AudioSet の最良結果をもたらした。
- ViT の事前知識を AST に活用するための、切り出しと2次補間による位置埋め込みの適応は重要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。