[論文レビュー] Asymmetric Tri-training for Unsupervised Domain Adaptation
新しい非対称トライ-トレーニングフレームワークによる教師なしドメイン適応は、2つの分類器を用いてターゲットデータを疑似ラベル付けし、3つ目のターゲットに焦点を当てたネットワークがそれらの疑似ラベルで訓練され、複数の視覚タスクと感情分析タスクで最先端の成果を達成している。
Deep-layered models trained on a large number of labeled samples boost the accuracy of many tasks. It is important to apply such models to different domains because collecting many labeled samples in various domains is expensive. In unsupervised domain adaptation, one needs to train a classifier that works well on a target domain when provided with labeled source samples and unlabeled target samples. Although many methods aim to match the distributions of source and target samples, simply matching the distribution cannot ensure accuracy on the target domain. To learn discriminative representations for the target domain, we assume that artificially labeling target samples can result in a good representation. Tri-training leverages three classifiers equally to give pseudo-labels to unlabeled samples, but the method does not assume labeling samples generated from a different domain.In this paper, we propose an asymmetric tri-training method for unsupervised domain adaptation, where we assign pseudo-labels to unlabeled samples and train neural networks as if they are true labels. In our work, we use three networks asymmetrically. By asymmetric, we mean that two networks are used to label unlabeled target samples and one network is trained by the samples to obtain target-discriminative representations. We evaluate our method on digit recognition and sentiment analysis datasets. Our proposed method achieves state-of-the-art performance on the benchmark digit recognition datasets of domain adaptation.
研究の動機と目的
- ターゲットラベルが利用できない場合のターゲットドメイン表現の識別性の必要性を動機づける。
- ターゲットサンプルの疑似ラベルを生成するための非対称トライ-トレーニングアーキテクチャを導入する。
- ノイズの多い疑似ラベルの影響を軽減しつつ、ターゲット識別表現を学習する。
提案手法
- 共有特徴抽出器Fは3つの分類器へ入力される:F1とF2はソースと疑似ラベル付きターゲットで訓練され、Ftは疑似ラベル付きターゲットのみで訓練される。
- F1とF2の3様損失には多様なビューを促す重み制約項|W1^T W2|が含まれる。
- 疑似ラ labeling にはF1とF2の合意と、ターゲットラベル集合へ追加する前の信頼度閾値(0.9–0.95)が必要。
- 訓練はS ∪ Tlで全てのネットワークを更新する交互と、TlでFtを更新する交互を行い、ターゲット識別表現を強化する。
- 最後の層にBatch Normalizationを追加し、ソースとターゲットの特徴分布の整合を助ける。
- 理論的枠組みはBen-David et al. (2010)の境界を、疑似ラベル付きターゲットデータとドメイン差異を考慮するよう適応。
実験結果
リサーチクエスチョン
- RQ1ターゲットラベルが欠如していても、疑似ラベルが自信をもって割り当てられる場合、非対称トライ-トレーニングはターゲットドメイン精度を向上させられるか。
- RQ2ターゲット固有のネットワークFtと共有特徴抽出器Fの導入が、ターゲット識別表現学習にどう影響するか。
- RQ3疑似ラベル付きターゲットサンプルを取り入れることで、分布マッチングアプローチを超えてドメイン差を低減し、ターゲット性能を改善できるか。
主な発見
| 元データ | ターゲット | 手法 | 指標 | 値(報告) |
|---|---|---|---|---|
| MNIST | MNIST-M | 私たちの手法 | 精度 | 94.0 |
| SVHN | MNIST | 私たちの手法 | 精度 | 85.0 |
| MNIST | SVHN | 私たちの手法 | 精度 | 52.8 |
| SYN DIGITS | SVHN | 私たちの手法 | 精度 | 92.9 |
| SYN SIGNS | GTSRB | 私たちの手法 | 精度 | 96.2 |
| MNIST | MNIST-M | 私たちの手法(BNなし) | 精度 | 85.3 |
| SVHN | MNIST | 私たちの手法(BNなし) | 精度 | 79.8 |
| MNIST | SVHN | 私たちの手法(BNなし) | 精度 | 39.8 |
| SYN DIGITS | SVHN | 私たちの手法(BNなし) | 精度 | 93.1 |
| SYN SIGNS | GTSRB | 私たちの手法(BNなし) | 精度 | 96.2 |
- 視覚ドメイン適応のベンチマークで最先端の成果を達成、特にMNIST→SVHNで競合より10%以上の改善。
- MNIST→MNIST-M、SVHN→MNIST、SYN DIGITS→SVHN、SYN SIGNS→GTSRBタスクでベースラインを上回る。
- Amazonレビュー感情転送では多くの設定でVFAEおよびDANNを上回り、BNと勾配共有の分析はさまざまな構成下での有効性を強調。
- t-SNEの視覚化は適応後にターゲットサンプルが識別性を高めることを示す。
- 本手法はソースのみCNNと比較して経験的A距離を低減しつつ、より強力なドメイン適応ベースラインと比較してターゲット精度を上回る。
- 3つのネットワークF1、F2、Ftはパフォーマンスが収束しやすく、ターゲット識別表現の共有傾向を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。