Skip to main content
QUICK REVIEW

[论文解读] Semantics-Aware Generative Latent Data Augmentation for Learning in Low-Resource Domains

Jae-Sung Bae, Minje Kim|arXiv (Cornell University)|Feb 2, 2026
Speech Recognition and Synthesis被引用 0
一句话总结

GeLDA 在基础模型潜在空间中使用扩散模型对低资源领域进行语义增强数据,从而提高零样本语音情感识别和长尾图像分类。它在 SER 的未加权平均召回率上实现 6.13% 的提升,在 ImageNet-LT 的尾类准确率达到 74.7%。

ABSTRACT

Despite strong performance in data-rich regimes, deep learning often underperforms in the data-scarce settings common in practice. While foundation models (FMs) trained on massive datasets demonstrate strong generalization by extracting general-purpose features, they can still suffer from scarce labeled data during downstream fine-tuning. To address this, we propose GeLDA, a semantics-aware generative latent data augmentation framework that leverages conditional diffusion models to synthesize samples in an FM-induced latent space. Because this space is low-dimensional and concentrates task-relevant information compared to the input space, GeLDA enables efficient, high-quality data generation. GeLDA conditions generation on auxiliary feature vectors that capture semantic relationships among classes or subdomains, facilitating data augmentation in low-resource domains. We validate GeLDA in two large-scale recognition tasks: (a) in zero-shot language-specific speech emotion recognition, GeLDA improves the Whisper-large baseline's unweighted average recall by 6.13%; and (b) in long-tailed image classification, it achieves 74.7% tail-class accuracy on ImageNet-LT, setting a new state-of-the-art result.

研究动机与目标

  • 在标注数据稀缺的低资源与不平衡设置下,动机是数据增强。
  • 提出一个潜在空间数据增强框架,利用基础模型实现高效、具有语义含义的样本生成。
  • 在零样本多语言语音情感识别和长尾图像分类任务上评估 GeLDA,以证明跨领域的有效性。
  • 研究辅助语义和子领域条件化如何在 FM 引导的潜在空间中提升增强质量。

提出的方法

  • 在与任务相关的 FM 引导潜在空间中进行基于扩散的数据增强,而非原始输入空间。
  • 在增强标签信息上进行条件化,该信息编码类别或子领域之间的语义关系。
  • 引入子领域条件化,将来自相关高资源子领域的线索转移到目标低资源子领域。
  • 研究在不同潜在层 (Z^(l)) 进行增强对多样性与任务相关性平衡的影响。
  • 训练过程包括冻结基础模型、学习一个轻量级适配器、在 Z^(l) 上训练潜在扩散模型、以及使用合成样本与真实样本对下游层进行微调。
  • 使用分类器自由引导(CFG)将扩散模型条件化在增强的标签和子领域向量 u(γ, κ) 上。
  • 在跨语言的零样本 SER 和点状图像数据集(ImageNet-LT/Places-LT)上进行评估,以证明跨模态的有效性。
(a)
(a)

实验结果

研究问题

  • RQ1在语义和子领域条件化引导下,潜在空间数据增强是否能在数据极度稀缺的设置中提升性能?
  • RQ2条件化质量与潜在层的选择如何影响 GeLDA 的增强效果?
  • RQ3GeLDA 是否在不同模态(语音与视觉)以及零样本与少样本情景中都能提供稳定的提升?

主要发现

  • GeLDA 在零样本语言特定的 SER 中,相较 Whisper-large 基线实现未加权平均召回率提升 6.13%。
  • 在长尾的 ImageNet-LT 中,GeLDA 实现 74.7% 的尾类准确率,创下新的最先进水平,同时保持其他类别的准确率。
  • GeLDA 使用一个紧凑的扩散模型(小至 2100 万参数),在 83 小时数据上训练,展示数据效率。
  • 消融实验表明,子领域条件化和潜在空间布局(Z^(l))对增强质量和总体提升有关键影响。
  • 在所有 SER 的主干网络上,GeLDA 在尾类/情感类别上的提升显著,显示对长尾改进的有效性。
(b)
(b)

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。