Skip to main content
QUICK REVIEW

[論文レビュー] Domain Adaptation without Source Data

Youngeun Kim, Donghyeon Cho|arXiv (Cornell University)|Jul 3, 2020
Domain Adaptation and Few-Shot Learning参考文献 48被引用数 24
ひとこと要約

本稿では、元のソースデータにアクセスせずに、自己エントロピーを用いて信頼性の高いターゲットサンプルを同定する事で、ソースデータにアクセスしないドメイン適応(SFDA)という新規手法を提案する。クラスプロトタイプとセット・ツー・セット距離フィルタリングを用いて、頑健な偽ラベルを割り当て、直接的なソースデータアクセスなしに、ベンチマークデータセットで最先端の性能を達成する。

ABSTRACT

Domain adaptation assumes that samples from source and target domains are freely accessible during a training phase. However, such an assumption is rarely plausible in the real-world and possibly causes data-privacy issues, especially when the label of the source domain can be a sensitive attribute as an identifier. To avoid accessing source data that may contain sensitive information, we introduce Source data-Free Domain Adaptation (SFDA). Our key idea is to leverage a pre-trained model from the source domain and progressively update the target model in a self-learning manner. We observe that target samples with lower self-entropy measured by the pre-trained source model are more likely to be classified correctly. From this, we select the reliable samples with the self-entropy criterion and define these as class prototypes. We then assign pseudo labels for every target sample based on the similarity score with class prototypes. Furthermore, to reduce the uncertainty from the pseudo labeling process, we propose set-to-set distance-based filtering which does not require any tunable hyperparameters. Finally, we train the target model with the filtered pseudo labels with regularization from the pre-trained source model. Surprisingly, without direct usage of labeled source samples, our PrDA outperforms conventional domain adaptation methods on benchmark datasets. Our code is publicly available at https://github.com/youngryan1993/SFDA-SourceFreeDA

研究の動機と目的

  • バイオメトリクスなどの機微なラベルを含む可能性のあるソースデータに起因するデータプライバシー懸念に対処する。
  • ラベル付きソースサンプルへの直接アクセスが不可能なドメイン適応フレームワークを開発する。
  • 事前に学習されたソースモデルからの自己エントロピーを用いて、信頼性の高いターゲットサンプルを同定する。
  • プロトタイプベースの類似度とセット・ツー・セット距離フィルタリングを用いて、偽ラベルの信頼性を向上させる。
  • ソースデータを一切使用しない標準ベンチマークで競争力のある性能を達成する。

提案手法

  • ターゲットサンプルの自己エントロピーを事前に学習されたソースモデルを用いて計算し、エントロピーが低いものを信頼性の高いサンプルとして選択する。
  • トレーニング中に、各クラスごとの低エントロピーのターゲットサンプルをメモリーバンクにクラスプロトタイプとして保存する。
  • ターゲットサンプルと保存済みのクラスプロトタイプ間の特徴類似度に基づいて、ターゲット指向の偽ラベルを割り当てる。
  • ハイパーパrameterを必要としないハウスドルフ距離を用いたセット・ツー・セット距離ベースのフィルタリングを適用し、偽ラベルの信頼度を推定する。
  • 動的重み付けによる監視を組み合わせた、ソース正則化損失と自己学習損失を用いてターゲットモデルを訓練する。
  • トレーニング中に徐々に自己学習損失の影響を高めるために、動的係数αを用いる。

実験結果

リサーチクエスチョン

  • RQ1事前に学習されたソースモデルのみを用いて、ソースデータにアクセスせずに信頼性の高いターゲットサンプルを同定できるか?
  • RQ2ソースデータが利用不可能な状況で、どのように偽ラベル付けを頑健にすることができるか?
  • RQ3調整可能なハイパーパrameterを必要とせずに、セット・ツー・セット距離フィルタリングが偽ラベルの不確実性を効果的に低減できるか?
  • RQ4ソース正則化損失と自己学習損失を組み合わせることで、ソースデータなしのドメイン適応性能が向上するか?
  • RQ5SFDAは、ソースデータを一切使用せずに、標準ベンチマークで最先端の性能を達成できるか?

主な発見

  • SFDAは、どのソースデータにもアクセスせずに、Office-HomeおよびVisDA-Cベンチマークで従来のドメイン適応手法を上回る性能を示した。
  • ResNet-101を用いたVisDA-Cでは、動的αを用いたSFDAが平均76.7%の正確度を達成し、静的α設定やベースライン手法を上回った。
  • 信頼性の高いサンプルを同定するために自己エントロピーを用いることで、約30%のターゲットサンプルが信頼性の高いものとして分類され、それらがプロトタイプとして使用された。
  • ハウスドルフ距離に基づくセット・ツー・セット距離フィルタリングは、偽ラベルの不確実性を効果的に低減し、モデルの一般化性能を向上させた。
  • 動的重み付け戦略(α)は、すべての静的α設定を上回り、適応的損失バランスの利点を示した。
  • SFDAはOffice-31およびVisDA-Cで最先端の性能を達成し、有効なドメイン適応にはソースデータが必須でないことを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。