Skip to main content
QUICK REVIEW

[論文レビュー] Semantics-Aware Generative Latent Data Augmentation for Learning in Low-Resource Domains

Jae-Sung Bae, Minje Kim|arXiv (Cornell University)|Feb 2, 2026
Speech Recognition and Synthesis被引用数 0
ひとこと要約

GeLDA は拡散モデルを基盤モデルの潜在空間に適用し、低資源ドメインのデータを意味的に拡張してゼロショットの音声感情認識と長尾画像分類を改善します。SER の UA を 6.13% 改善し、ImageNet-LT の尾部クラス精度を 74.7% に向上させます。

ABSTRACT

Despite strong performance in data-rich regimes, deep learning often underperforms in the data-scarce settings common in practice. While foundation models (FMs) trained on massive datasets demonstrate strong generalization by extracting general-purpose features, they can still suffer from scarce labeled data during downstream fine-tuning. To address this, we propose GeLDA, a semantics-aware generative latent data augmentation framework that leverages conditional diffusion models to synthesize samples in an FM-induced latent space. Because this space is low-dimensional and concentrates task-relevant information compared to the input space, GeLDA enables efficient, high-quality data generation. GeLDA conditions generation on auxiliary feature vectors that capture semantic relationships among classes or subdomains, facilitating data augmentation in low-resource domains. We validate GeLDA in two large-scale recognition tasks: (a) in zero-shot language-specific speech emotion recognition, GeLDA improves the Whisper-large baseline's unweighted average recall by 6.13%; and (b) in long-tailed image classification, it achieves 74.7% tail-class accuracy on ImageNet-LT, setting a new state-of-the-art result.

研究の動機と目的

  • ラベル付きデータが不足している低資源および不均衡設定でデータ拡張を動機づける。
  • 基盤モデルを活用した潜在空間データ拡張フレームワークを提案し、意味的に意味のあるサンプル生成を効率化する。
  • ゼロショット多言語音声感情認識と長尾画像分類でGeLDAを評価し、ドメイン横断の有効性を示す。
  • FMに誘導された潜在空間における拡張品質を改善する補助的な意味情報とサブドメイン条件付けを調査する。

提案手法

  • 生データ空間ではなく、タスクに関連するFM誘導潜在空間で拡散ベースのデータ拡張を運用する。
  • 意味関係をエンコードする拡張ラベル情報に基づいて生成を条件付ける。
  • 関連の高資源サブドメインからターゲットの低資源サブドメインへ手がかりを転移するサブドメイン条件付けを導入する。
  • 拡張の多様性とタスク関連性のバランスをとるため、拡張に用いる潜在層(Z^(l))の選択影響を調査する。
  • 訓練は基盤モデルを凍結し、軽量アダプターを学習させ、Z^(l)上で潜在拡散モデルを訓練し、合成データと実データを用いて下流層を微調整する。
  • 拡散モデルを拡張ラベルベクトルおよびサブドメインベクトル u(γ, κ) に条件付けるために classifier-free guidance (CFG) を使用する。
  • ゼロショットの SER(言語横断)と長尾 ImageNet-LT/Places-LT の評価を行い、横断モーダルの有効性を示す。
(a)
(a)

実験結果

リサーチクエスチョン

  • RQ1意味およびサブドメイン条件付けに guided な潜在空間データ拡張は、データが極端に不足している設定で性能を改善するか。
  • RQ2条件付けの品質と潜在空間層の選択がGeLDAの拡張効果にどう影響するか。
  • RQ3GeLDA はモダリティ(音声と視覚)およびゼロショット対少数ショットの regime で一貫した利益をもたらすか。

主な発見

  • GeLDA はゼロショットの言語特定SERで Whisper-large ベースラインに対して未加重平均再現率を 6.13% 向上させる。
  • 長尾画像Net-LT において GeLDA は尾部クラス精度を 74.7% に達し、他クラスの精度を維持しつつ新しいSOTAを設定する。
  • GeLDA は 83 時間のデータで訓練された 2100万パラメータ程度のコンパクトな拡散モデルで動作し、データ効率を示す。
  • サブドメイン条件付けと潜在空間配置(Z^(l))の Ablation により、拡張の品質と全体的な利益に重大な影響を与えることが示された。
  • SER バックボーン全体で、尾部/感情カテゴリに対して基線が苦戦する領域で GeLDA が大幅に改善を示し、長尾の改善に有効であることを示す。
(b)
(b)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。