[論文レビュー] PACE: Pretrained Audio Continual Learning
PACE は、 pretrained audio モデルの段階的継続学習フレームワークを導入し、初回セッション適応の改善、サブスペース直交PEFTによる多セッション適応、境界認識的正則化を組み合わせて、粗粒度および細粒度オーディオタスクにおける上流–下流の不一致と忘却を緩和します。
Audio is a fundamental modality for analyzing speech, music, and environmental sounds. Although pretrained audio models have significantly advanced audio understanding, they remain fragile in real-world settings where data distributions shift over time. In this work, we present the first systematic benchmark for audio continual learning (CL) with pretrained models (PTMs), together with a comprehensive analysis of its unique challenges. Unlike in vision, where parameter-efficient fine-tuning (PEFT) has proven effective for CL, directly transferring such strategies to audio leads to poor performance. This stems from a fundamental property of audio backbones: they focus on low-level spectral details rather than structured semantics, causing severe upstream-downstream misalignment. Through extensive empirical study, we identify analytic classifiers with first-session adaptation (FSA) as a promising direction, but also reveal two major limitations: representation saturation in coarse-grained scenarios and representation drift in fine-grained scenarios. To address these challenges, we propose PACE, a novel method that enhances FSA via a regularized analytic classifier and enables multi-session adaptation through adaptive subspace-orthogonal PEFT for improved semantic alignment. In addition, we introduce spectrogram-based boundary-aware perturbations to mitigate representation overlap and improve stability. Experiments on six diverse audio CL benchmarks demonstrate that PACE substantially outperforms state-of-the-art baselines, marking an important step toward robust and scalable audio continual learning with PTMs.
研究の動機と目的
- 事前学習済みモデルをオーディオ継続学習(CL)に適用する際の課題を評価し、包括的なオーディオCLベンチマークを確立する。
- 視覚ベースのCL手法をオーディオに転用した場合の限界を識別し、オーディオCLへの現実的な道筋を確立する。
- 初回セッション適応を改善し、サブスペース直交PEFTを用いた多セッション適応を可能にし、境界認識的摂動を導入することでPACEを提案する。
- PACE が粗粒度および細粒度オーディオCLベンチマークで最先端のベースラインを上回り、共同訓練との差を縮小することを示す。
提案手法
- 粗粒度および細粒度タスクを網羅する6データセットで事前学習バックボーン(EAT)に基づくオーディオCLをベンチマークする。
- オーディオに直接視覚CL手法を適用することの表現抽出のシフトにより効果が薄いことを実証する。
- ヘッドを凍結し、より深い層をLoRAで調整し、ヘッドを解析型分類器に置換することで初回セッション適応を改善する。
- サブスペース直交射影を用いたセッション特異的LoRAを用いた多セッション適応を導入し、更新を制約する。
- スペクトログラムを摂動させ、予測されたクラス境界から表現を離すことで境界認識的正則化を適用する。
- 安定性と可塑性のバランスを取るため、解析型分類器の更新(閉形式)と勾配投影LoRA更新を備えたエンドツーエンドのパイプラインを提供する。
実験結果
リサーチクエスチョン
- RQ1事前学習済みのオーディオモデルは、視覚ベースのCL手法と比較して継続学習設定でどのように性能を発揮するか?
- RQ2オーディオCLにおける表現シフトと忘却の主な要因は何であり、セッション間でそれらをどのように緩和できるか?
- RQ3初回セッション適応の改善と多セッションサブスペース直交PEFTは、粗粒度および細粒度の音声タスクにおいて忘却を低減しつつ可塑性を維持できるか?
- RQ4境界認識的摂動は、PTMを用いた継続的オーディオ学習におけるクラス内の凝集性とクラス間分離を改善するか?
主な発見
| Method | ESC-50 | US8K | SC2 | TIMIT-2 | TIMIT-3 | VocalSet |
|---|---|---|---|---|---|---|
| PACE (Ours) | 95.75 | 97.49 | 91.87 | 90.95 | 94.05 | 69.08 |
| EAT (LoRA) + Joint Training | 96.50 | 98.07 | 95.91 | 95.22 | 95.22 | 76.65 |
| Naive FSA | 89.92 | 62.85 | 61.18 | N/A | N/A | N/A |
- 視覚ドメインのCL手法は、オーディオの微細なスペクトル構造のためオーディオCLに適用すると効果が低下する。
- 凍結されたバックボーン上の2次統計を用いた解析型分類器は、PEFTベース手法よりも強く安定した結果をオーディオCLで提供する。
- 初回セッション適応のみでは粗粒度タスクで表現の飽和が生じ、将来のタスクの利益が制限される。
- 細粒度のオーディオタスクは上流–下流の不一致と共同訓練との差が大きく、多セッションと整合戦略が必要である。
- PACE は6つのオーディオCLベンチマークでベースラインを上回り、特に TIMIT-2 の改善は少なくとも +5.3%、VocalSet は +6.3% の顕著な向上を示し、ベンチマーク全体で共同訓練との差を縮小している(例:ESC-50 は 0.8% 内、US8K は 0.6% 内)。
- PACE の改善された初回セッション適応、サブスペース射影を用いた適応的多セッション、境界認識的摂動の組み合わせは、粗粒度・細粒度いずれの設定でも強力な性能を発揮し、忘却を低減しつつ可塑性を維持または向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。