Skip to main content
QUICK REVIEW

[论文解读] Regularized Learning for Domain Adaptation under Label Shifts

Kamyar Azizzadenesheli, Anqi Liu|arXiv (Cornell University)|Mar 22, 2019
Domain Adaptation and Few-Shot Learning被引用 56
一句话总结

介绍 Regularized Learning under Label Shifts (RLLS),一种实用算法,用于通过正则化权重估计和类 Wasserstein 近似的泛化保证来纠正源域和目标域之间的标签分布偏移。它在低样本和大偏移情形下优于先前方法。

ABSTRACT

We propose Regularized Learning under Label shifts (RLLS), a principled and a practical domain-adaptation algorithm to correct for shifts in the label distribution between a source and a target domain. We first estimate importance weights using labeled source data and unlabeled target data, and then train a classifier on the weighted source samples. We derive a generalization bound for the classifier on the target domain which is independent of the (ambient) data dimensions, and instead only depends on the complexity of the function class. To the best of our knowledge, this is the first generalization bound for the label-shift problem where the labels in the target domain are not available. Based on this bound, we propose a regularized estimator for the small-sample regime which accounts for the uncertainty in the estimated weights. Experiments on the CIFAR-10 and MNIST datasets show that RLLS improves classification accuracy, especially in the low sample and large-shift regimes, compared to previous methods.

研究动机与目标

  • 在有监督学习中,当目标标签不可用时,提出动机并解决标签偏移问题。
  • 开发在小样本情形下仍然鲁棒的实用权重估计过程。
  • 给出在标签偏移下目标域分类器的理论泛化界限。
  • 提出一种正则化估计器以减轻权重估计的不确定性并提升目标域性能。
  • 在 MNIST 和 CIFAR-10 上对比先前方法对 RLLS 进行实证验证。

提出的方法

  • 定义并使用对标签偏移的重要性权重 w(i)=q(i)/p(i),其中 p 和 q 分别为源域/目标域标签分布。
  • 提出一个两步权重估计,将线性模型 q-hat - C-hat 1 = C-hat theta 正则化,以获得 theta-hat,并且 w = 1 + lambda theta-hat。
  • 将源数据分成权重集和类别集,以估计权重,并在加权经验损失 L_n(h; w) 上训练分类器。
  • 推导一个与维度无关的 RLLS 分类器泛化界,依赖于损失类的 Rademacher 复杂度和散度项来衡量函数类的复杂性。
  • 引入正则化估计量 w_hat = 1 + lambda theta_hat,以在小样本情形下控制权重估计的影响,其中 lambda 的取值基于目标样本量和对权重估计的置信度来选择。
  • 为在不同数据-样本情形下平衡正则化与学习,提供选择 lambda 和 beta 的指南。

实验结果

研究问题

  • RQ1在目标标签不可用时,如何从带标签的源数据和未标签的目标数据中准确估计标签偏移权重 q(y)/p(y)?
  • RQ2在标签偏移下对重新加权的源数据训练的分类器有哪些泛化保证?如何在小样本情形下考虑权重估计的不确定性?
  • RQ3相比未加权或非正则化的加权,正则化权重估计是否在预测性能上有所提升,尤其是在大偏移或目标数据有限的情况下?
  • RQ4在各种标签偏移情景下,提出的 RLLS 方法在大规模视觉数据集上的实证表现与现有方法如 BBSL 相比如何?

主要发现

  • RLLS 在大偏移、低样本情形下在权重估计误差方面实现数量级别的提升,并在准确性方面相对于基线具有竞争力的增益。
  • 为 RLLS 分类器推导出一个与维度无关的泛化界,改进了在标签偏移下的超额风险保证。
  • 对权重估计器的正则化在目标数据稀缺时缓解高方差的权重估计,使在各情形下的性能更加鲁棒。
  • 在 MNIST 和 CIFAR-10 的实证结果显示,RLLS 在权重估计和目标精度方面持续优于 BBSL,尤其是在大偏移和目标数据有限的情况下。
  • 部分正则化权重(lambda 在 0 与 1 之间)在中等目标样本情形下可以实现最佳性能,适应权重不确定性水平。
  • 该方法为选择分割比 beta、正则化强度 lambda,以及使用去中心化预测器 h_0 来引导权重估计提供了实用指南。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。