[論文レビュー] Unsupervised Domain Adaptation of Black-Box Source Models
本論文は IterLNL を導入する。ブラックボックスのソースモデルの予測を用いて、ターゲットデータをノイズ付きで反復的にラベリングし、ノイズ処理とカテゴリ別サンプリングを用いて、ソースデータやソースモデルそのものにアクセスせずに競争力のある結果を達成する、ブラックボックス無監督ドメイン適応 (B2UDA) の枠組みを提案する。
Unsupervised domain adaptation (UDA) aims to learn models for a target domain of unlabeled data by transferring knowledge from a labeled source domain. In the traditional UDA setting, labeled source data are assumed to be available for adaptation. Due to increasing concerns for data privacy, source-free UDA is highly appreciated as a new UDA setting, where only a trained source model is assumed to be available, while labeled source data remain private. However, trained source models may also be unavailable in practice since source models may have commercial values and exposing source models brings risks to the source domain, e.g., problems of model misuse and white-box attacks. In this work, we study a subtly different setting, named Black-Box Unsupervised Domain Adaptation (B$^2$UDA), where only the application programming interface of source model is accessible to the target domain; in other words, the source model itself is kept as a black-box one. To tackle B$^2$UDA, we propose a simple yet effective method, termed Iterative Learning with Noisy Labels (IterLNL). With black-box models as tools of noisy labeling, IterLNL conducts noisy labeling and learning with noisy labels (LNL), iteratively. To facilitate the implementation of LNL in B$^2$UDA, we estimate the noise rate from model predictions of unlabeled target data and propose category-wise sampling to tackle the unbalanced label noise among categories. Experiments on benchmark datasets show the efficacy of IterLNL. Given neither source data nor source models, IterLNL performs comparably with traditional UDA methods that make full use of labeled source data.
研究の動機と目的
- ブラックボックスソースモデルの API のみがアクセス可能な状態でのプライバシー保護された UDA に対処する。
- ブラックボックス予測から生じる不均衡なラベルノイズに適した頑健なノイズ付きラベル付き学習戦略を開発する。
- ラベル付きターゲットデータなしでノイズ率を推定し、カテゴリごとに訓練サンプルを適応的に選択する。
- ソースデータなしで、伝統的な UDA およびホワイトボックス UDA のベースラインに近いターゲットドメインの性能を向上させる。
提案手法
- ブラックボックスのソースモデルからターゲットの予測を取得して、ラベルなしターゲットデータに対してノイズ付きラベルを生成する。
- 訓練を知らせるために、ターゲット予測からノイズ率を再スケーリングされた確率ベースの指標を用いて推定する(eq. 6–10)。
- カテゴリごとにサンプルを選択するサンプリング(小さな損失のサンプルをカテゴリごとに選択する、カテゴリ別バッファ付き)。
- カリキュラム R(n) に導かれたノイズ付きラベル学習(LNL)を用いてターゲットモデルを更新する(eq. 6)。
- IterLNL ループとして、ターゲットモデルを反復的に更新し、次のラベリングラウンドの新しいブラックボックスソースとして再利用する。
実験結果
リサーチクエスチョン
- RQ1ソースデータなしでも、ブラックボックスソースモデル API のみが利用可能な場合に B2UDA は競争力のある性能を達成できるか。
- RQ2ドメインシフトによって生じる不均衡なラベルノイズを B2UDA でどのように効果的に扱うか。
- RQ3 IterLNL における頑健な学習を推進する機構(ノイズ率推定、カテゴリ別サンプリング、反復) は何か。
- RQ4IterLNL は既存の B2UDA、ソースフリー UDA、標準的な UDA の方法とベンチマークデータセットでどのように比較されるか。
主な発見
- IterLNL はベンチマークデータセットで既存の B2UDA 手法より有意に改善する。
- IterLNL はソースデータやソースモデルの内部へアクセスできなくても、ホワイトボックス UDA 手法や伝統的な UDA に匹敵する結果を達成する。
- カテゴリ別サンプリングと反復的学習は、非常に不均衡なラベルノイズを扱い、カテゴリ特有の失敗を回避するために重要である。
- ノイズ率推定、再スケール曲線、カテゴリ別サンプリングの頑健な性能に対する重要性を示すアブレーション研究。
- VisDA-2017、Office31、Digits のタスクで、IterLNL はベースラインのソースモデルおよびいくつかの B2UDA 変種を大きく上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。