[论文解读] Domain Adaptation without Source Data
本文提出源数据无关域自适应(SFDA),一种新颖方法,通过利用预训练的源模型基于自熵识别可靠的目标样本,实现无需访问源数据的域自适应。该方法利用类别原型和集合到集合的距离过滤技术分配鲁棒的伪标签,在基准数据集上实现最先进性能,且无需直接访问源数据。
Domain adaptation assumes that samples from source and target domains are freely accessible during a training phase. However, such an assumption is rarely plausible in the real-world and possibly causes data-privacy issues, especially when the label of the source domain can be a sensitive attribute as an identifier. To avoid accessing source data that may contain sensitive information, we introduce Source data-Free Domain Adaptation (SFDA). Our key idea is to leverage a pre-trained model from the source domain and progressively update the target model in a self-learning manner. We observe that target samples with lower self-entropy measured by the pre-trained source model are more likely to be classified correctly. From this, we select the reliable samples with the self-entropy criterion and define these as class prototypes. We then assign pseudo labels for every target sample based on the similarity score with class prototypes. Furthermore, to reduce the uncertainty from the pseudo labeling process, we propose set-to-set distance-based filtering which does not require any tunable hyperparameters. Finally, we train the target model with the filtered pseudo labels with regularization from the pre-trained source model. Surprisingly, without direct usage of labeled source samples, our PrDA outperforms conventional domain adaptation methods on benchmark datasets. Our code is publicly available at https://github.com/youngryan1993/SFDA-SourceFreeDA
研究动机与目标
- 解决域自适应中的数据隐私问题,其中源数据可能包含生物特征等敏感标签。
- 开发一种在不直接访问带标签源样本的情况下运行的域自适应框架。
- 利用预训练源模型的自熵识别可靠的目标样本。
- 通过基于原型的相似性和集合到集合的距离过滤提高伪标签的可靠性。
- 在标准基准上实现具有竞争力的性能,且不使用源数据。
提出的方法
- 利用预训练的源模型计算目标样本的自熵,选择自熵较低的样本作为可靠样本。
- 在训练过程中,将每类的低自熵目标样本存储为类别原型,存入内存库。
- 基于目标样本与存储的类别原型之间的特征相似性,分配面向目标的伪标签。
- 使用豪斯多夫距离的集合到集合距离过滤方法,无需超参数即可估计伪标签置信度。
- 通过结合源正则化损失和自学习损失,并采用动态加权监督,训练目标模型。
- 使用动态权衡系数 α,逐步增加自学习损失的影响。
实验结果
研究问题
- RQ1能否仅使用预训练的源模型,在不访问源数据的情况下识别可靠的目标样本?
- RQ2当源数据不可用时,如何使伪标签分配更加鲁棒?
- RQ3集合到集合的距离过滤是否能有效降低伪标签的不确定性,且无需可调超参数?
- RQ4在无源数据的情况下,结合源正则化损失和自学习损失是否能提升域自适应性能?
- RQ5SFDA 是否能在不使用任何源数据的情况下,在标准基准上实现最先进性能?
主要发现
- SFDA 在 Office-Home 和 VisDA-C 基准上优于传统域自适应方法,且未访问任何源数据。
- 在使用 ResNet-101 的 VisDA-C 上,SFDA 采用动态 α 时达到 76.7% 的平均准确率,超过静态 α 设定和基线方法。
- 利用自熵识别可靠样本,约 30% 的目标样本被分类为可靠样本,随后用作原型。
- 基于豪斯多夫距离的集合到集合距离过滤有效降低了伪标签的不确定性,并提升了模型泛化能力。
- 动态加权策略(α)优于所有静态 α 设定,证明了自适应损失平衡的优势。
- SFDA 在 Office-31 和 VisDA-C 上均达到最先进性能,证实源数据并非实现有效域自适应的必要条件。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。