[論文レビュー] BEATs: Audio Pre-Training with Acoustic Tokenizers
BEATs は、音響トークナイザーと音声 SSL モデルを共同で学習する反復的フレームワークを導入し、離散ラベル予測を用いて、過剰なデータやパラメータを必要とせず、複数の音声/音声タスクで最先端の結果を達成します。
The massive growth of self-supervised learning (SSL) has been witnessed in language, vision, speech, and audio domains over the past few years. While discrete label prediction is widely adopted for other modalities, the state-of-the-art audio SSL models still employ reconstruction loss for pre-training. Compared with reconstruction loss, semantic-rich discrete label prediction encourages the SSL model to abstract the high-level audio semantics and discard the redundant details as in human perception. However, a semantic-rich acoustic tokenizer for general audio pre-training is usually not straightforward to obtain, due to the continuous property of audio and unavailable phoneme sequences like speech. To tackle this challenge, we propose BEATs, an iterative audio pre-training framework to learn Bidirectional Encoder representation from Audio Transformers, where an acoustic tokenizer and an audio SSL model are optimized by iterations. In the first iteration, we use random projection as the acoustic tokenizer to train an audio SSL model in a mask and label prediction manner. Then, we train an acoustic tokenizer for the next iteration by distilling the semantic knowledge from the pre-trained or fine-tuned audio SSL model. The iteration is repeated with the hope of mutual promotion of the acoustic tokenizer and audio SSL model. The experimental results demonstrate our acoustic tokenizers can generate discrete labels with rich audio semantics and our audio SSL models achieve state-of-the-art results across various audio classification benchmarks, even outperforming previous models that use more training data and model parameters significantly. Specifically, we set a new state-of-the-art mAP 50.6% on AudioSet-2M for audio-only models without using any external data, and 98.1% accuracy on ESC-50. The code and pre-trained models are available at https://aka.ms/beats.
研究の動機と目的
- 一般的な音声 SSL のための離散ラベル予測を動機づけ、高レベルの意味論をよりよく捉える。
- 音響トークナイザーと音声 SSL モデルの学習を交互に行う反復フレームワークを提案する。
- 意味的に豊かな音響トークンが下流の音声理解を改善することを示す。
- AudioSet-2M、AudioSet-2M-augmented、ESC-50 で過剰なデータやパラメータなしに最先端の結果を示す。
提案手法
- BEATs を導入する。音響トークナイザーと音声 Transformer SSL モデルを結合した反復的な双方向フレームワーク。
- 最初の反復ではランダム投影トークナイザーを使用してマスク付きラベル予測の離散ターゲットを生成する。
- 以降の反復で自己蒸留トークナイザーを訓練し、SSL モデル(教師)からトークナイザー(生徒)へ意味的知識を蒸留する。
- 75% のパッチをマスクし、マスクされたトークンに対して離散ラベルを予測する Masked Audio Modeling 目標を採用する。
- Backbone SSL モデルは相対的ポジショニングエンベディングと DeepNorm を用いた ViT ベースのエンコーダで、離散トークンに対して 75% のマスク予測損失で訓練する。
- エンコーダ表現の上に線形分類器を乗せて下流タスクを微調整する。
- AudioSet (AS-2M) で 3 回の事前訓練を行い、反復+ の監督付き教師をオプションとして利用する。
実験結果
リサーチクエスチョン
- RQ1反復的に学習された離散音響トークンは、一般的な音声理解を改善する意味的豊かさを提供できるか。
- RQ2音響トークナイザーと音声 SSL モデルの相互改善は、多様な音声/話者ベンチマークで最先端の結果を生み出すか。
- RQ3自己蒸留トークナイザーはデータ不足とデータ豊富の設定でランダム投影トークナイザーと比べてどうか。
- RQ4BEATs の反復フレームワーク内で supervised 微調整を組み込むとどんな利得が生じるか。
- RQ5BEATs フレームワークは反復間で異なる SSL 教師モデルに対して頑健か。
主な発見
| モデル | パラメータ数 | データ | オーディオ | スピーチ | AS-2M | AS-20K | ESC-50 | KS1 | KS2 | ER |
|---|---|---|---|---|---|---|---|---|---|---|
| BEATs_iter1 | 90M | AS | 47.9 | 36.0 | 94.0 | 98.0 | 98.3 | 65.9 | ||
| BEATs_iter2 | 90M | AS | 48.1 | 38.3 | 95.1 | 97.7 | 98.3 | 66.1 | ||
| BEATs_iter3 | 90M | AS | 48.0 | 38.3 | 95.6 | 97.7 | 98.3 | 64.5 | ||
| BEATs_iter3+ | 90M | AS | 48.6 | 38.9 | 98.1 | 98.1 | 98.1 | 65.0 |
- BEATs は six つの音声/話者タスクで最先端の結果を達成し、特に ESC-50 で 98.1%、AudioSet-2M の音声のみモデルで 50.6 mAP を達成(iter3+、外部データなし)。
- 最初の反復でランダム投影トークナイザーを用いた場合でも、6 タスク中 5 つで既存手法を上回る等、再構成よりも離散ラベル予測の利点が示される。
- 自己蒸留トークナイザーを用いた反復訓練は、特に音声分類タスクで追加の利得をもたらし、トークナイザーが意味内容を改善することを示す。
- iter3+ での supervised データを用いた微調整は AS-2M/AS-20K の性能をさらに向上させ、パラメータ数が少ないにもかかわらず従来の SOTA を大幅に上回る(90M 対 304M)。
- BEATs の反復は迅速に収束し(iter3 付近で同等の性能)、同時に supervised 教師が iteration+ で下流の大きな gains を提供可能。
- 学習された音響トークンは外乱に対して堅牢で、音声意味と整合する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。