QUICK REVIEW

[논문 리뷰] Semantics-Aware Generative Latent Data Augmentation for Learning in Low-Resource Domains

Jae-Sung Bae, Minje Kim|arXiv (Cornell University)|2026. 02. 02.

Speech Recognition and Synthesis인용 수 0

한 줄 요약

GeLDA는 확산 모델을 기초 모델의 잠재 공간에서 사용하여 자원이 적은 도메인에 대해 데이터를 의미적으로 증강하고, 제로샷 음성 감정 인식과 롱테일 이미지 분류의 성능을 향상시킵니다. SER에서 UA 6.13% 개선, ImageNet-LT에서 tail-class 정확도 74.7%.

ABSTRACT

Despite strong performance in data-rich regimes, deep learning often underperforms in the data-scarce settings common in practice. While foundation models (FMs) trained on massive datasets demonstrate strong generalization by extracting general-purpose features, they can still suffer from scarce labeled data during downstream fine-tuning. To address this, we propose GeLDA, a semantics-aware generative latent data augmentation framework that leverages conditional diffusion models to synthesize samples in an FM-induced latent space. Because this space is low-dimensional and concentrates task-relevant information compared to the input space, GeLDA enables efficient, high-quality data generation. GeLDA conditions generation on auxiliary feature vectors that capture semantic relationships among classes or subdomains, facilitating data augmentation in low-resource domains. We validate GeLDA in two large-scale recognition tasks: (a) in zero-shot language-specific speech emotion recognition, GeLDA improves the Whisper-large baseline's unweighted average recall by 6.13%; and (b) in long-tailed image classification, it achieves 74.7% tail-class accuracy on ImageNet-LT, setting a new state-of-the-art result.

연구 동기 및 목표

레이블 데이터가 드물고 불균형한 저자원 환경에서 데이터 증강의 필요성을 제시한다.
효율적이고 의미적으로 의미 있는 샘플 생성을 위해 기초 모델을 활용하는 잠재 공간 데이터 증강 프레임워크를 제안한다.
교차 도메인 효과를 입증하기 위해 제로샷 다국어 음성 감정 인식 및 롱테일 이미지 분류에서 GeLDA를 평가한다.
FM 유도 잠재 공간에서 보조적 의미 및 하위도메인 조건부가 증강 품질을 어떻게 향상시키는지 조사한다.

제안 방법

원시 입력 공간이 아니라 작업 관련 FM 유도 잠재 공간에서 확산 기반 데이터 증강을 수행한다.
클래스 간 또는 하위도메인 간의 의미 관계를 인코딩하는 증강된 라벨 정보에 따라 생성을 조건화한다.
관련 고자원 하위도메인에서 타깃 저자원 하위도메인으로 단서를 전이하기 위한 하위도메인 조건 부여를 도입한다.
다양성과 작업 관련성의 균형을 맞추기 위해 증강에 사용할 서로 다른 잠재 층(Z^(l))을 선택하는 영향력을 조사한다.
학습은 기초 모델을 고정하고 경량 어댑터를 학습하며 Z^(l)에서 잠재 확산 모델을 훈련시키고 합성 샘플과 실제 샘플로 다운스트림 계층을 미세 조정하는 것을 포함한다.
클래시파이더 제로 가이던스(CFG)를 사용하여 확산 모델을 증강된 라벨 및 하위 도메인 벡터 u(γ, κ)에 조건화한다.
다언어에 걸친 제로샷 SER과 롱테일 ImageNet-LT/Places-LT를 모두 평가해 교차 모달 효과를 입증한다.

실험 결과

연구 질문

RQ1의미 및 하위도메인 조건에 의해 안내되는 잠재 공간 데이터 증강이 심각하게 데이터가 부족한 설정에서 성능을 향상시킬 수 있는가?
RQ2조건화 품질과 잠재 공간 층(Z^(l))의 선택이 GeLDA의 증강 효과에 어떤 영향을 미치는가?
RQ3GeLDA가 모듈(음성/비전) 전반에 걸쳐 일관된 이득을 주는가, 제로샷 대 소수 샷 상황에서?

주요 결과

GeLDA는 제로샷 언어별 SER에서 Whisper-large 기본 대비 미가중 평균 재현율(UA) 6.13% 상승을 달성한다.
롱테일 ImageNet-LT에서 GeLDA는 74.7% tail-class 정확도를 달성하며 다른 클래스 정확도를 유지하면서 새로운 SOTA를 설정한다.
GeLDA는 83시간의 데이터로 훈련된 21M 파라미터 규모의 컴팩트한 확산 모델로 작동하여 데이터 효율성을 입증한다.
변인 분석은 하위도메인 조건부와 잠재 공간 배치(Z^(l))가 증강 품질과 전반적 이득에 결정적으로 영향을 준다는 것을 보여준다.
SER 백본 전반에 걸쳐 GeLDA는 베이스라인이 어려움을 겪는 tail/감정 카테고리에서 크게 향상되어 롱테일 개선의 효과를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.