[论文解读] PACE: Pretrained Audio Continual Learning
PACE 引入一个阶段性持续学习框架,结合改进的首时学习适应、带子空间正交投影的多会话自适应,以及边界感知正则化,以缓解上游与下游在粗粒度和细粒度音频任务中的不匹配与遗忘。
Audio is a fundamental modality for analyzing speech, music, and environmental sounds. Although pretrained audio models have significantly advanced audio understanding, they remain fragile in real-world settings where data distributions shift over time. In this work, we present the first systematic benchmark for audio continual learning (CL) with pretrained models (PTMs), together with a comprehensive analysis of its unique challenges. Unlike in vision, where parameter-efficient fine-tuning (PEFT) has proven effective for CL, directly transferring such strategies to audio leads to poor performance. This stems from a fundamental property of audio backbones: they focus on low-level spectral details rather than structured semantics, causing severe upstream-downstream misalignment. Through extensive empirical study, we identify analytic classifiers with first-session adaptation (FSA) as a promising direction, but also reveal two major limitations: representation saturation in coarse-grained scenarios and representation drift in fine-grained scenarios. To address these challenges, we propose PACE, a novel method that enhances FSA via a regularized analytic classifier and enables multi-session adaptation through adaptive subspace-orthogonal PEFT for improved semantic alignment. In addition, we introduce spectrogram-based boundary-aware perturbations to mitigate representation overlap and improve stability. Experiments on six diverse audio CL benchmarks demonstrate that PACE substantially outperforms state-of-the-art baselines, marking an important step toward robust and scalable audio continual learning with PTMs.
研究动机与目标
- 评估将预训练模型应用于音频持续学习(CL)所面临的挑战,并建立一个全面的音频 CL 基准测试。
- 识别视觉驱动的 CL 方法在迁移到音频时的局限性,并确立一个可行的音频 CL 路径。
- 提出 PACE,以提升首时会话适应性,启用含子空间正交投影的多会话适应,并引入边界感知扰动。
- 证明 PACE 在粗粒度和细粒度音频 CL 基准上优于当前最优基线,并缩小与联合训练的差距。
提出的方法
- 在六个覆盖粗粒度与细粒度任务的数据集上,以一个预训练骨干网络(EAT)进行音频 CL 基准测试。
- 证明直接将视觉 CL 方法应用于音频由于表征移位而无效。
- 开发改进的首会话适应:冻结特征头部,使用 LoRA 微调更深的层,并以分析分类器替代头部。
- 引入带子空间正交投影的会话特定 LoRA 的多会话适应,以约束更新。
- 通过对谱图进行边界感知扰动并将表示向预测类别边界推离来实现正则化。
- 提供端到端管线,分析分类器的闭式解更新与梯度投影的 LoRA 更新相结合,以在稳定性和可塑性之间取得平衡。
实验结果
研究问题
- RQ1与视觉驱动的 CL 方法相比,预训练音频模型在持续学习设置中的表现如何?
- RQ2音频 CL 中表征移位和遗忘的主要来源是什么,如何在跨会话中缓解?
- RQ3改进的首会话适应和带子空间正交投影的多会话子空间自适应是否能在保持可塑性的同时减少粗粒度和细粒度任务中的遗忘?
- RQ4边界感知扰动是否提升持续音频学习中同类内紧凑性与类别间分离?
主要发现
| Method | ESC-50 | US8K | SC2 | TIMIT-2 | TIMIT-3 | VocalSet |
|---|---|---|---|---|---|---|
| PACE (Ours) | 95.75 | 97.49 | 91.87 | 90.95 | 94.05 | 69.08 |
| EAT (LoRA) + Joint Training | 96.50 | 98.07 | 95.91 | 95.22 | 95.22 | 76.65 |
| Naive FSA | 89.92 | 62.85 | 61.18 | N/A | N/A | N/A |
- 视觉域 CL 方法在应用于音频 CL 时会因为音频的细粒度频谱结构而下降。
- 在冻结骨干网络上使用二阶统计的分析分类器在音频 CL 中提供比基于 PEFT 的方法更强、更稳定的结果。
- 仅首会话适应在粗粒度任务上表现出表示饱和,限制对未来任务的提升。
- 细粒度音频任务存在更大的上游–下游不匹配和与联合训练的性能差距,因此需要多会话和对齐策略。
- PACE 在六个音频 CL 基准上优于基线,且在 TIMIT-2 提升至少 5.3%、VocalSet 提升 6.3%,并在所有基准上缩小与联合训练的差距(如 ESC-50 将至 0.8% 内、US8K 将至 0.6% 内)。
- PACE 将改进的首会话适应、带子空间投影的自适应多会话、以及边界感知扰动结合,能在粗粒度与细粒度设置中实现强性能,同时降低遗忘并保持或提升可塑性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。