[논문 리뷰] Semantics-Aware Generative Latent Data Augmentation for Learning in Low-Resource Domains
GeLDA는 확산 모델을 기초 모델의 잠재 공간에서 사용하여 자원이 적은 도메인에 대해 데이터를 의미적으로 증강하고, 제로샷 음성 감정 인식과 롱테일 이미지 분류의 성능을 향상시킵니다. SER에서 UA 6.13% 개선, ImageNet-LT에서 tail-class 정확도 74.7%.
Despite strong performance in data-rich regimes, deep learning often underperforms in the data-scarce settings common in practice. While foundation models (FMs) trained on massive datasets demonstrate strong generalization by extracting general-purpose features, they can still suffer from scarce labeled data during downstream fine-tuning. To address this, we propose GeLDA, a semantics-aware generative latent data augmentation framework that leverages conditional diffusion models to synthesize samples in an FM-induced latent space. Because this space is low-dimensional and concentrates task-relevant information compared to the input space, GeLDA enables efficient, high-quality data generation. GeLDA conditions generation on auxiliary feature vectors that capture semantic relationships among classes or subdomains, facilitating data augmentation in low-resource domains. We validate GeLDA in two large-scale recognition tasks: (a) in zero-shot language-specific speech emotion recognition, GeLDA improves the Whisper-large baseline's unweighted average recall by 6.13%; and (b) in long-tailed image classification, it achieves 74.7% tail-class accuracy on ImageNet-LT, setting a new state-of-the-art result.
연구 동기 및 목표
- 레이블 데이터가 드물고 불균형한 저자원 환경에서 데이터 증강의 필요성을 제시한다.
- 효율적이고 의미적으로 의미 있는 샘플 생성을 위해 기초 모델을 활용하는 잠재 공간 데이터 증강 프레임워크를 제안한다.
- 교차 도메인 효과를 입증하기 위해 제로샷 다국어 음성 감정 인식 및 롱테일 이미지 분류에서 GeLDA를 평가한다.
- FM 유도 잠재 공간에서 보조적 의미 및 하위도메인 조건부가 증강 품질을 어떻게 향상시키는지 조사한다.
제안 방법
- 원시 입력 공간이 아니라 작업 관련 FM 유도 잠재 공간에서 확산 기반 데이터 증강을 수행한다.
- 클래스 간 또는 하위도메인 간의 의미 관계를 인코딩하는 증강된 라벨 정보에 따라 생성을 조건화한다.
- 관련 고자원 하위도메인에서 타깃 저자원 하위도메인으로 단서를 전이하기 위한 하위도메인 조건 부여를 도입한다.
- 다양성과 작업 관련성의 균형을 맞추기 위해 증강에 사용할 서로 다른 잠재 층(Z^(l))을 선택하는 영향력을 조사한다.
- 학습은 기초 모델을 고정하고 경량 어댑터를 학습하며 Z^(l)에서 잠재 확산 모델을 훈련시키고 합성 샘플과 실제 샘플로 다운스트림 계층을 미세 조정하는 것을 포함한다.
- 클래시파이더 제로 가이던스(CFG)를 사용하여 확산 모델을 증강된 라벨 및 하위 도메인 벡터 u(γ, κ)에 조건화한다.
- 다언어에 걸친 제로샷 SER과 롱테일 ImageNet-LT/Places-LT를 모두 평가해 교차 모달 효과를 입증한다.

실험 결과
연구 질문
- RQ1의미 및 하위도메인 조건에 의해 안내되는 잠재 공간 데이터 증강이 심각하게 데이터가 부족한 설정에서 성능을 향상시킬 수 있는가?
- RQ2조건화 품질과 잠재 공간 층(Z^(l))의 선택이 GeLDA의 증강 효과에 어떤 영향을 미치는가?
- RQ3GeLDA가 모듈(음성/비전) 전반에 걸쳐 일관된 이득을 주는가, 제로샷 대 소수 샷 상황에서?
주요 결과
- GeLDA는 제로샷 언어별 SER에서 Whisper-large 기본 대비 미가중 평균 재현율(UA) 6.13% 상승을 달성한다.
- 롱테일 ImageNet-LT에서 GeLDA는 74.7% tail-class 정확도를 달성하며 다른 클래스 정확도를 유지하면서 새로운 SOTA를 설정한다.
- GeLDA는 83시간의 데이터로 훈련된 21M 파라미터 규모의 컴팩트한 확산 모델로 작동하여 데이터 효율성을 입증한다.
- 변인 분석은 하위도메인 조건부와 잠재 공간 배치(Z^(l))가 증강 품질과 전반적 이득에 결정적으로 영향을 준다는 것을 보여준다.
- SER 백본 전반에 걸쳐 GeLDA는 베이스라인이 어려움을 겪는 tail/감정 카테고리에서 크게 향상되어 롱테일 개선의 효과를 입증한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.