QUICK REVIEW

[논문 리뷰] PACE: Pretrained Audio Continual Learning

Chang Li, Kanglei Zhou|arXiv (Cornell University)|2026. 02. 03.

Music and Audio Processing인용 수 0

한 줄 요약

PACE는 사전 학습된 음성 모델용으로 단계별 지속 학습 프레임워크를 도입하며, 향상된 첫 세션 적응, 다중 세션 적응을 위한 서브스페이스 직교 PEFT, 경계 인식 정규화를 결합하여 상위-하위 간 불일치와 거친-세밀한 음향 작업 간의 망각을 완화한다.

ABSTRACT

Audio is a fundamental modality for analyzing speech, music, and environmental sounds. Although pretrained audio models have significantly advanced audio understanding, they remain fragile in real-world settings where data distributions shift over time. In this work, we present the first systematic benchmark for audio continual learning (CL) with pretrained models (PTMs), together with a comprehensive analysis of its unique challenges. Unlike in vision, where parameter-efficient fine-tuning (PEFT) has proven effective for CL, directly transferring such strategies to audio leads to poor performance. This stems from a fundamental property of audio backbones: they focus on low-level spectral details rather than structured semantics, causing severe upstream-downstream misalignment. Through extensive empirical study, we identify analytic classifiers with first-session adaptation (FSA) as a promising direction, but also reveal two major limitations: representation saturation in coarse-grained scenarios and representation drift in fine-grained scenarios. To address these challenges, we propose PACE, a novel method that enhances FSA via a regularized analytic classifier and enables multi-session adaptation through adaptive subspace-orthogonal PEFT for improved semantic alignment. In addition, we introduce spectrogram-based boundary-aware perturbations to mitigate representation overlap and improve stability. Experiments on six diverse audio CL benchmarks demonstrate that PACE substantially outperforms state-of-the-art baselines, marking an important step toward robust and scalable audio continual learning with PTMs.

연구 동기 및 목표

사전 학습된 모델을 음성 지속 학습(CL)에 적용하는 데 따른 도전 과제를 평가하고 포괄적인 음성 CL 벤치마크를 구축한다.
비전 기반 CL 방법을 음성으로 전이할 때의 한계를 식별하고 음성 CL을 위한 실행 가능한 경로를 확립한다.
PACE를 제안하여 첫 세션 적응을 개선하고, 서브스페스 직교 PEFT를 통한 다중 세션 적응을 가능하게 하며, 경계 인식 교란을 도입한다.
PACE가 거친-세밀한 음향 CL 벤치마크에서 최첨단 기준선을 능가하고 공동 학습과의 격차를 줄임을 보여준다.

제안 방법

거친-하위 및 세밀한 작업을 포괄하는 여섯 개 데이터셋에서 사전 학습된 백본(EAT)으로 음향 CL을 벤치마킹한다.
표현 변화로 인해 비전-CL 방법을 직접 음향에 적용하는 것이 효과가 없음을 보여준다.
헤드를 고정하고, LoRA로 더 깊은 계층을 조정하며, 헤드를 해석적 분류기로 대체하는 향상된 첫 세션 적응을 개발한다.
업데이트를 제약하기 위해 서브스페스 직교 투영을 가진 세션 특이적 LoRA를 사용한 다중 세션 적응을 도입한다.
스펙트로그램을 섭동하고 예측된 클래스 경계에서 표현을 멀어지게 하여 경계 인식 규제를 적용한다.
해석적 분류기 업데이트(폐쇄 형식)와 그래디언트-투사 LoRA 업데이트를 갖춘 엔드-투-엔드 파이프라인을 제공하여 안정성과 가소성의 균형을 맞춘다.

실험 결과

연구 질문

RQ1사전 학습된 음성 모델이 비전 기반 CL 방법과 비교하여 지속 학습 설정에서 어떻게 성능을 발휘하는가?
RQ2음성 CL에서 표현 변화와 망각의 주요 원인은 무엇이며, 세션 간에 어떻게 완화할 수 있는가?
RQ3향상된 첫 세션 적응과 다중 세션 서브스페이스 직교 PEFT가 상-하위 음향 작업에서 가소성을 유지하면서 망각을 줄일 수 있는가?
RQ4경계 인식 교란이 PTM으로 지속적 음성 학습에서 클래스 내 응집성과 클래스 간 분리를 향상시키는가?

주요 결과

방법	ESC-50	US8K	SC2	TIMIT-2	TIMIT-3	VocalSet
PACE (Ours)	95.75	97.49	91.87	90.95	94.05	69.08
EAT (LoRA) + Joint Training	96.50	98.07	95.91	95.22	95.22	76.65
Naive FSA	89.92	62.85	61.18	N/A	N/A	N/A

오디오의 미세한 스펙트럴 구조로 인해 시각 도메인 CL 방법을 오디오 CL에 적용하면 성능이 저하된다.
고정된 백본의 2차 통계 기반 해석적 분류기가 PEFT 기반 방법보다 음성 CL에서 더 강력하고 안정적인 결과를 제공한다.
첫 세션 적응만으로는 거친-세밀 작업에서 표현 포화가 나타나 향후 작업의 이득이 제한된다.
세밀한 음향 작업은 상류-하류 불일치와 공동 학습 대비 성능 격차가 더 크므로 다중 세션 및 정렬 전략이 필요하다.
PACE가 여섯 개의 음향 CL 벤치마크에서 기준선을 능가하며, TIMIT-2에서 최소 +5.3%, VocalSet에서 +6.3%의 주목할 만한 향상을 보이고 벤치마크 전반에서 공동 학습과의 격차를 좁힌다(예: ESC-50 내 0.8% 이내, US8K 내 0.6% 이내).
향상된 FSA, 서브스페이스 투영이 있는 적응형 MSA, 경계 인식 교란의 조합은 거친-세밀 설정 모두에서 강력한 성능을 달성하며 망각을 줄이고 가소성을 유지하거나 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.