QUICK REVIEW

[论文解读] Pseudo-Labeling Curriculum for Unsupervised Domain Adaptation

Jaehoon Choi, Minki Jeong|arXiv (Cornell University)|Aug 1, 2019

Domain Adaptation and Few-Shot Learning参考文献 38被引用 60

一句话总结

本文提出 PCDA，一种用于无监督领域自适应的伪标签学习课程，通过基于密度的聚类从易到难筛选可靠的目标样本，并附带聚类约束，在 Office-31、imageCLEF-DA 和 Office-Home 上达到最新的结果。

ABSTRACT

To learn target discriminative representations, using pseudo-labels is a simple yet effective approach for unsupervised domain adaptation. However, the existence of false pseudo-labels, which may have a detrimental influence on learning target representations, remains a major challenge. To overcome this issue, we propose a pseudo-labeling curriculum based on a density-based clustering algorithm. Since samples with high density values are more likely to have correct pseudo-labels, we leverage these subsets to train our target network at the early stage, and utilize data subsets with low density values at the later stage. We can progressively improve the capability of our network to generate pseudo-labels, and thus these target samples with pseudo-labels are effective for training our model. Moreover, we present a clustering constraint to enhance the discriminative power of the learned target features. Our approach achieves state-of-the-art performance on three benchmarks: Office-31, imageCLEF-DA, and Office-Home.

研究动机与目标

在无监督环境中应对协变量偏移，学习目标域判别性表示。
减轻伪标签噪声对目标学习的负面影响。
引入一个基于聚类密度自易到难逐步纳入目标样本的课程。
在训练过程中通过聚类约束提升目标特征的辨别性。

提出的方法

在类似 DANN 的对抗框架中，使用一个共享特征提取器 Gf，源分类器 Cs、目标分类器 Ct，以及一个域判别器 Gd。
对目标特征进行基于密度的聚类（按预测类别分组），以形成目标样本的 easy、moderate、hard 子集 De、Dm、Dh。
从易到难分四个阶段进行训练：先以源数据和未标注的目标数据（Ct 未训练）开始，然后逐步加入 De、Dm，最终加入 Dh 与 Ct。
使用聚类密度来对目标样本进行排序并形成用于训练 Ct 的数据子集，定义伪标签学习课程。
通过基于欧氏距离的对比损失 (ECL) 引入聚类约束，将同一类别的目标聚集在一起、将不同类别的目标推开。
优化一个最小-最大目标，使其结合监督损失、域对抗损失，以及课程驱动项（对新加入的样本采用 beta 加权）。

实验结果

研究问题

RQ1当通过课程抑制错误标签时，目标样本的伪标签能否在无监督领域适应中得到有效利用？
RQ2基于密度的聚类是否能为领域自适应中的目标样本提供可靠的易到难课程？
RQ3在存在伪标签的情况下，加入聚类约束是否提升目标特征的判别能力？
RQ4在标准基准测试上，PCDA 相较于最先进的无监督领域自适应方法的表现如何？

主要发现

PCDA 在三个基准测试（Office-31、imageCLEF-DA、Office-Home）上达到最先进或具竞争力的平均准确率。
使用带有基于密度的聚类的伪标签学习课程，通过先在易样本上训练、逐步纳入更难样本来降低错误伪标签的影响。
结合聚类约束 (ECL) 能提升目标特征的辨别能力，并在相较于不使用约束时进一步提升性能。
超参数分析表明 beta 值在 2 与 3 之间、聚类数 P 约为 3，在所有基准上均能得到较强的结果。
消融研究表明聚类约束在 Office-31 与 imageCLEF-DA 上提升了性能，在 Office-Home 上的影响则因任务和小批量大小而异。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。