Skip to main content
QUICK REVIEW

[論文レビュー] Deep Transfer Network: Unsupervised Domain Adaptation

Xu Zhang, Felix X. Yu|arXiv (Cornell University)|Mar 2, 2015
Domain Adaptation and Few-Shot Learning参考文献 24被引用数 126
ひとこと要約

本稿では、共有特徴抽出層と識別層を用いて、マージナル分布と条件付き分布を同時に一致させる深層ニューラルネットワークフレームワーク、Deep Transfer Network (DTN) を提案する。DTN は線形計算量複雑度 O(n) を達成し、USPS/MNIST などの大規模データセットで、先行手法よりも最大 28.95% 高い精度を実現する。

ABSTRACT

Domain adaptation aims at training a classifier in one dataset and applying it to a related but not identical dataset. One successfully used framework of domain adaptation is to learn a transformation to match both the distribution of the features (marginal distribution), and the distribution of the labels given features (conditional distribution). In this paper, we propose a new domain adaptation framework named Deep Transfer Network (DTN), where the highly flexible deep neural networks are used to implement such a distribution matching process. This is achieved by two types of layers in DTN: the shared feature extraction layers which learn a shared feature subspace in which the marginal distributions of the source and the target samples are drawn close, and the discrimination layers which match conditional distributions by classifier transduction. We also show that DTN has a computation complexity linear to the number of training samples, making it suitable to large-scale problems. By combining the best paradigms in both worlds (deep neural networks in recognition, and matching marginal and conditional distributions in domain adaptation), we demonstrate by extensive experiments that DTN improves significantly over former methods in both execution time and classification accuracy.

研究の動機と目的

  • 教師ありのソースデータと教師なしのターゲットデータの間で特徴分布とラベル分布が異なるドメインシフトの課題に対処する。
  • 大規模データセットへのスケーラビリティを制限する、先行手法の高い計算量複雑度(O(n²)または O(n³))を克服する。
  • ソースドメインとターゲットドメイン間のマージナル分布と条件付き分布の乖離を明示的にモデル化・一致させる深層学習ベースのフレームワークを開発する。
  • 大規模データセットにおける効率的な学習を維持しつつ、高い分類精度を達成する。

提案手法

  • 深層ニューラルネットワーク内の共有特徴抽出層を用いて、ソースとターゲットのサンプルのマージナル分布が一致する共有部分空間を学習する。
  • 識別層を用いて、ドメイン間で特徴量の下でのラベルの条件付き分布を一致させることで、分類器トランスダクションを実行する。
  • ハイパーパrameter λ と μ を用いて、マージナル分布と条件付き分布の両方の分布一致をバランスさせる共同目的関数を最適化する。
  • ミニバッチ確率的最適化を用いて学習を実行し、反復的ラベル精錬を実施する。ターゲットのラベルは学習中に 20 回更新される。
  • 深層ネットワークの階層的特徴学習能力を活用し、浅い手法よりも複雑な非線形ドメインシフトをより効果的にモデル化する。
  • 訓練データサイズに比例して線形に増加する最適化設計により、スケーラビリティを確保する(O(n))。

実験結果

リサーチクエスチョン

  • RQ1教師なしドメイン適応において、深層ニューラルネットワークを効果的に構築し、マージナル分布と条件付き分布の両方を同時に一致させることは可能か?
  • RQ2提案された Deep Transfer Network (DTN) は、ベンチマークドメイン適応データセットにおいて、最先端の手法を上回る分類精度を達成するか?
  • RQ3DTN は、サンプル数に比例する線形計算量複雑度を維持しながら、大規模データセットへのスケーリングを効率的に行えるか?
  • RQ4DTN の性能は、λ、μ、バッチサイズ S、反復回数 T といった主要ハイパーパrameter にどれほど感受性を示すか?

主な発見

  • USPS/MNIST データセットにおいて、DTN は 81.04% の分類精度を達成し、最良のベースライン手法(ARRLS)と比較して 28.95% の向上を示した。
  • より大きな CIFAR/VOC データセットでは、DTN は 73.60% の精度を達成し、最良のベースライン(ARRLS)と比較して 1.87% の向上を示した。
  • DTN は ARRLS よりも実行時間を顕著に短縮し、USPS/MNIST では 7,346 秒の ARRLS 対比で 4,548 秒を要した。
  • DTN の訓練時間はデータセットサイズにほぼ線形に増加し、O(n) の計算量複雑度を確認した。一方、ARRLS ははるかに速い増加を示した。
  • DTN は GPU メモリをたった 3GB で使用するが、ARRLS はカーネル行列を保存するために 100GB 以上を必要とし、大規模な展開には不適切であった。
  • ハイパーパrameter 分析の結果、λ = μ = 10、バッチサイズ S = 4,000(USPS/MNIST)および S = 2,000(CIFAR/VOC)、ラベル精錬の反復回数 T = 20 が最適な性能をもたらした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。