[論文レビュー] PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition
本論文は AudioSet で大規模な事前学習済み音声ニューラルネットワーク(PANNs)を訓練し、音声タグ付けにおいて最先端の性能を示し、さまざまなアーキテクチャと入力表現を用いた複数の音声パターン認識タスクへの転移が成功していることを示す。
Audio pattern recognition is an important research topic in the machine learning area, and includes several tasks such as audio tagging, acoustic scene classification, music classification, speech emotion classification and sound event detection. Recently, neural networks have been applied to tackle audio pattern recognition problems. However, previous systems are built on specific datasets with limited durations. Recently, in computer vision and natural language processing, systems pretrained on large-scale datasets have generalized well to several tasks. However, there is limited research on pretraining systems on large-scale datasets for audio pattern recognition. In this paper, we propose pretrained audio neural networks (PANNs) trained on the large-scale AudioSet dataset. These PANNs are transferred to other audio related tasks. We investigate the performance and computational complexity of PANNs modeled by a variety of convolutional neural networks. We propose an architecture called Wavegram-Logmel-CNN using both log-mel spectrogram and waveform as input feature. Our best PANN system achieves a state-of-the-art mean average precision (mAP) of 0.439 on AudioSet tagging, outperforming the best previous system of 0.392. We transfer PANNs to six audio pattern recognition tasks, and demonstrate state-of-the-art performance in several of those tasks. We have released the source code and pretrained models of PANNs: https://github.com/qiuqiangkong/audioset_tagging_cnn.
研究の動機と目的
- PANNs を AudioSet(1.9M クリップ、527 クラス)で訓練し、広範な音声タグ付けとパターン認識のために適用する。
- AudioSet タギングのためのさまざまな CNN アーキテクチャ(CNN、ResNet、MobileNet、One-dimensional CNNs)を評価する。
- 時間領域の波形と対数メルスペクトログラム特徴を組み合わせた Wavegram-Logmel-CNN を提案し、タグ付け性能を向上させる。
- 一般化を改善するデータ処理技術(バランス調整、Mixup、SpecAugment)を説明する。
- タグ付け以外の多様な音声タスクへの PANNs の転移を実証し、コード/モデルを公開する。
提案手法
- 生の AudioSet 音声を用いてバイナリ交差エントロピー損失で多ラベルタグ付けを行う。
- CNN14、VGG様の CNN(6/10/14 層)、ResNet(ResNet22/38/54)、MobileNet(V1/V2)、1 次元 CNN(DaiNet、LeeNet、Res1dNet)などのアーキテクチャを検討する。
- Wavegram-CNN を導入:1D CNN で波形から時系列-周波数の Wavegram を学習し、その後 Wavegram 上で 2D CNN(CNN14)を適用する。
- Wavegram と log-mel スペクトログラム入力をチャネル方向に融合して Wavegram-Logmel-CNN を提案する。
- データ処理:ミニバッチでのバランスの取れたサンプリング、log-mel または波形の Mixup 拡張、log-mel スペクトログラム上の SpecAugment。
- 転移戦略:ゼロショットで訓練する、特徴量抽出器としての PANN を凍結して使用する、または新しいタスクで PANN を微調整する。
実験結果
リサーチクエスチョン
- RQ1AudioSet で訓練された PANN アーキテクチャは、従来の最先端システムと比較して AudioSet タギングでどの程度の性能を示すか。
- RQ2入力表現(log-mel スペクトログラム対 waveform 対 Wavegram)とネットワークアーキテクチャが、タグ付け性能と効率性にどのように影響するか。
- RQ3AudioSet で事前訓練された PANNs は、他の音声パターン認識タスク(例:音響シーン分類、音楽タグ付け、音声感情)へ効果的に転移できるか、どの戦略で。
主な発見
| Model | mAP | AUC | d-prime |
|---|---|---|---|
| Random guess | 0.005 | 0.500 | 0.000 |
| Google CNN | 0.314 | 0.959 | 2.452 |
| Single-level attention | 0.337 | 0.968 | 2.612 |
| Multi-level attention | 0.360 | 0.970 | 2.660 |
| Large feature-level attention | 0.369 | 0.969 | 2.640 |
| TAL Net | 0.362 | 0.965 | 2.554 |
| DeepRes | 0.392 | 0.971 | 2.682 |
| CNN14 | 0.431 | 0.973 | 2.732 |
- CNN14 ベースの PANNs は AudioSet タギングでの mAP が 0.431 を達成し、従来の最先端 0.392 を上回った。
- Wavegram-Logmel-CNN は CNN14 および MobileNetV1 のベースラインよりも性能をさらに改善。
- データのバランス取りと拡張(Mixup、SpecAugment)は mAP を大幅に改善(例:1.9M サンプルで bal+mixup による 0.431)。
- CNN ベースの PANNs は AudioSet で訓練すると他のタスクへ効果的に転移し、タスク固有ベースラインに対して強力な結果を達成。
- 著者は再利用可能なソースコードと事前学習済み PANN モデルを公開。
- 最良の全体構成(Wavegram-Logmel 入力を持つ CNN14 ボトン) は、埋め込み特徴ベースのアプローチと比較して複数の指標・タスクで優れた性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。