QUICK REVIEW

[論文レビュー] Pseudo-Labeling Curriculum for Unsupervised Domain Adaptation

Jaehoon Choi, Minki Jeong|arXiv (Cornell University)|Aug 1, 2019

Domain Adaptation and Few-Shot Learning参考文献 38被引用数 60

ひとこと要約

この論文は PCDA を導入する。擬似ラベリングカリキュラムを用いた教師なしドメイン適応で、密度ベースのクラスタリングを用いて信頼性のあるターゲットサンプルを易しいものから難しいものへ選択し、クラスタリング制約を導入、Office-31, imageCLEF-DA, Office-Homeで最先端の結果を達成。

ABSTRACT

To learn target discriminative representations, using pseudo-labels is a simple yet effective approach for unsupervised domain adaptation. However, the existence of false pseudo-labels, which may have a detrimental influence on learning target representations, remains a major challenge. To overcome this issue, we propose a pseudo-labeling curriculum based on a density-based clustering algorithm. Since samples with high density values are more likely to have correct pseudo-labels, we leverage these subsets to train our target network at the early stage, and utilize data subsets with low density values at the later stage. We can progressively improve the capability of our network to generate pseudo-labels, and thus these target samples with pseudo-labels are effective for training our model. Moreover, we present a clustering constraint to enhance the discriminative power of the learned target features. Our approach achieves state-of-the-art performance on three benchmarks: Office-31, imageCLEF-DA, and Office-Home.

研究の動機と目的

教師なし設定でターゲット識別性の高い表現を学習するために共変量シフトに対処する。
ターゲット学習における偽の擬似ラベルの悪影響を緩和する。
クラスタリング密度に基づいて易しいサンプルから難しいサンプルへ段階的にターゲットサンプルを組み込むカリキュラムを導入する。
トレーニング中のクラスタリング制約でターゲット特徴の識別性を高める。

提案手法

ソース分類器 Cs とターゲット分類器 Ct、さらに DANN に類似した対抗設定でドメイン識別器 Gd を用いた共通特徴抽出器 Gf を使用する。
予測クラスごとにターゲット特徴の密度ベースクラスタリングを適用し、易しい、適度、難しいのサブセット（De, Dm, Dh）を形成する。
易しいから難しいへ4段階で訓練する。ソースデータとラベルなしターゲットから開始（Ct は訓練されない）、次に De を、次に Dm を、最後に Dh を Ct とともに段階的に追加する。
クラスタリング密度を用いてターゲットサンプルをランク付けし Ct の訓練データサブセットを形成する擬似ラベリングカリキュラムを定義する。
Euclidean ベースのコントラスト損失（ECL）によるクラスタリング制約を導入し、同一クラスのターゲットを近づけ、異なるクラスのターゲットを離す。
新しく追加されたサンプルに対する beta 重みを用いた、教師あり損失、ドメイン対向損失、カリキュラム主導の項を組み合わせたミニマックス最適化を行う。

実験結果

リサーチクエスチョン

RQ1カリキュラムによって偽ラベルが抑制された場合、ターゲットサンプルの擬似ラベルは教師なしドメイン適応で効果的に活用できるか。
RQ2密度ベースのクラスタリングはドメイン適応におけるターゲットサンプルに対して信頼できる易しいから難しいへのカリキュラムを提供するか。
RQ3擬似ラベルが存在する状況でクラスタリング制約を追加するとターゲット特徴の識別力が向上するか。
RQ4標準ベンチマーク上で、PCDAは最先端の教師なしドメイン適応法と比較してどの程度の性能を示すか。

主な発見

PCDA は三つのベンチマーク（Office-31、imageCLEF-DA、Office-Home）で最先端または競争力のある平均精度を達成した。
密度ベースのクラスタリングを用いた擬似ラベリングカリキュラムは、易しいサンプルから訓練を開始し、徐々に難しいサンプルを取り入れることで偽の擬似ラベルの影響を低減する。
クラスタリング制約（ECL）を取り入れるとターゲット特徴の識別性が向上し、制約を使用しない場合と比べて性能がさらに向上する。
ハイパーパラメータ分析では beta 値が 2〜3、クラスタ数 P が約 3 で、ベンチマーク全体で強い結果を示す。
アブレーション研究は、クラスタリング制約が Office-31 と imageCLEF-DA の性能を改善する一方、Office-Home ではタスクとミニバッチサイズに応じて影響が異なることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。