[論文レビュー] Audio Transformers
この論文は、畳み込みなしで生の音声を扱うエンドツーエンドの Transformer アーキテクチャを提示し、FSD50K データセットで平均平均精度(mean average precision)を最先端に達成し、プーリングとマルチスケール埋め込みを探索して性能を向上させる。
Over the past two decades, CNN architectures have produced compelling models of sound perception and cognition, learning hierarchical organizations of features. Analogous to successes in computer vision, audio feature classification can be optimized for a particular task of interest, over a wide variety of datasets and labels. In fact similar architectures designed for image understanding have proven effective for acoustic scene analysis. Here we propose applying Transformer based architectures without convolutional layers to raw audio signals. On a standard dataset of Free Sound 50K,comprising of 200 categories, our model outperforms convolutional models to produce state of the art results. This is significant as unlike in natural language processing and computer vision, we do not perform unsupervised pre-training for outperforming convolutional architectures. On the same training set, with respect mean aver-age precision benchmarks, we show a significant improvement. We further improve the performance of Transformer architectures by using techniques such as pooling inspired from convolutional net-work designed in the past few years. In addition, we also show how multi-rate signal processing ideas inspired from wavelets, can be applied to the Transformer embeddings to improve the results. We also show how our models learns a non-linear non constant band-width filter-bank, which shows an adaptable time frequency front end representation for the task of audio understanding, different from other tasks e.g. pitch estimation.
研究の動機と目的
- 純粋な Transformer アーキテクチャ(畳み込みなし)が大規模オーディオシーン理解において CNN ベースラインを上回ることを示す。
- 音声タスクへ適応する前端の学習可能表現を調査する。
- Transformer の性能をオーディオデータで向上させるためのプーリングとマルチスケール埋め込み戦略を探る。
- 学習可能なフロントエンドが非線形かつ一定でない帯域幅のフィルタバンクを発展させる様子を示す。
- FSD50K データセットでのアーキテクチャ間の経験的比較を提供する。
提案手法
- 1秒間の音声(16 kHz)を Transformer 互換の埋め込みへ適応させるために前端密結合層(2048 から 64)を用いる。
- 因果的マルチヘッド自己注意とフィードフォワードブロックを備えた6層の埋め込み(64次元)を積み重ねる。
- 時間的構造を保持するために位置エンコーディング(サイン波)を組み込む。
- 次の2つの Transformer 層ごとに時系列方向へプーリングを適用して次元を削減し、階層的特徴を可能にする。
- ウエーブレットに触発された可変窓関数と微分可能分解を用いたマルチスケール埋め込み戦略を導入する。
- Adam オプティマイザと Huber 損失で FSD50K データセット上のエンドツーエンド学習を行い、CNN ベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1畳み込み層なしの純粋な Transformer アーキテクチャは大規模オーディオ理解タスクで最先端の性能を達成できるか。
- RQ2プーリングとマルチスケール埋め込み戦略はオーディオデータに対する Transformer の性能にどのような影響を与えるか。
- RQ3オーディオ理解のためにエンドツーエンドで学習させた前端は、どのような時-t-frequency 表現を開発するか。
- RQ4FSD50K における異なるモデルスケールで transformer ベースのモデルは CNN と比べてどうか。
- RQ5アーキテクチャの深さと埋め込みサイズがオーディオ mAP の性能に与える影響はどの程度か。
主な発見
| Neural Model Architecture | mAP | # Param |
|---|---|---|
| CRNN | 0.417 | 0.96M |
| VGG-like | 0.434 | 0.27M |
| ResNet-18 | 0.373 | 11.3M |
| DenseNet-121 | 0.425 | 12.5M |
| Small Transformer | 0.469 | 0.9M |
| Large 6-Layer Transformer | 0.525 | 2.3M |
| Large Transformer with multi-scale filters | ||
| Large 6- Layer Transformer with Pooling | 0.537 | 2.3M |
- 畳み込みのないベースライン Transformer は音響シーン理解において一般的な CNN ベースのアーキテクチャを上回る。
- 大規模な 6 層 Transformer はいくつかの CNN バリアントよりも高い mAP を達成する(例:0.525 対 下位 CNN スコアなど)。
- 2 層ごとに Transformer 層を挟むように平均プーリングを行うと、ベースラインより性能が向上する。
- マルチスケールおよびウェーブレットに着想を得た埋め込み戦略はさらなる改善を提供するが、マルチスケール変種の正確な mAP は列挙されていない。
- 学習可能なフロントエンドは非線形で一定でない帯域幅フィルタバンクを発見し、適応的な時-t頻度分析に似た特徴を持つ。フィルターにはサイン波、 onset detectors、エネルギーエンベロープが含まれる。
- フロントエンドはタスクを横断して一般化しており、音高推定と音響シーン理解では異なるフィルタ形状を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。