QUICK REVIEW

[論文レビュー] Image to Image Translation for Domain Adaptation

Zak Murez, Soheil Kolouri|arXiv (Cornell University)|Dec 1, 2017

Domain Adaptation and Few-Shot Learning参考文献 28被引用数 25

ひとこと要約

本論文は、ターゲットドメインのアノテーションを一切必要とせず、対応する画像間変換を用いてソースドメインとターゲットドメインの特徴を統一的にアライメントする、統合的で教師なしドメイン適応フレームワークを提案する。ドメインに依存しない特徴抽出、サイクル整合性のある再構成、敵対的ドメインアライメントを強制することで、数字分類（MNIST、USPS、SVHN）およびセマンティックセグメンテーション（GTA5 から Cityscapes）において最先端の性能を達成し、実世界の展開環境におけるドメインシフト誤差を顕著に低減する。

ABSTRACT

We propose a general framework for unsupervised domain adaptation, which allows deep neural networks trained on a source domain to be tested on a different target domain without requiring any training annotations in the target domain. This is achieved by adding extra networks and losses that help regularize the features extracted by the backbone encoder network. To this end we propose the novel use of the recently proposed unpaired image-toimage translation framework to constrain the features extracted by the encoder network. Specifically, we require that the features extracted are able to reconstruct the images in both domains. In addition we require that the distribution of features extracted from images in the two domains are indistinguishable. Many recent works can be seen as specific cases of our general framework. We apply our method for domain adaptation between MNIST, USPS, and SVHN datasets, and Amazon, Webcam and DSLR Office datasets in classification tasks, and also between GTA5 and Cityscapes datasets for a segmentation task. We demonstrate state of the art performance on each of these datasets.

研究の動機と目的

学習に合成データやソースドメインデータを用いたモデルが、分布の違いにより実世界のターゲットドメインで失敗するドメインシフト問題に対処すること。
ターゲットドメインにラベル付きデータを一切必要としない汎用的で教師なしドメイン適応フレームワークの開発。
特徴抽出、再構成、ドメインアライメントの共通コンponentを有する1つのアーキテクチャに、既存のドメイン適応手法を統合・一般化すること。
非ペア画像変換とサイクル整合性を活用することで、セマンティックセグメンテーションおよび画像分類タスクの性能を向上させること。
合成から実世界への画像変換（例：GTA5 から Cityscapes）およびクロスデータセット間の数字認識を含む、多様なデータセットにわたるフレームワークの有効性を示すこと。

提案手法

フレームワークは、ソースドメインおよびターゲットドメインからのドメインに依存しない特徴を抽出する共有エンコーダを用い、敵対的ディスクライマナーを介して特徴分布が区別不能であるように保証する。
共有特徴からソースおよびターゲット画像を再構成するドメイン固有のデコーダを導入し、自己符号化損失を通じてサイクル整合性を強制する。
特徴をソースからターゲットに変換し、再び元に戻した際にも元のコンテンツが保持されることを保証するため、サイクル整合性損失を採用し、モード崩壊を防ぐ。
分類ヘッドはソースドメイン特徴上で訓練されるが、ターゲットドメインは特徴アライメントおよび再構成のためのものであり、監視のためのものではない。
訓練目的は分類損失、再構成損失、アイデンティティ損失、およびサイクル整合性損失を組み合わせており、各成分のバランスを調整するための学習可能ハイパーパramータを備える。
フレームワークは、エンコーダと他のコンponentに対して別々の学習率を用い、画像ディスクライマナーには改良型Wasserstein GAN損失と勾配ペナルティを適用したADAM最適化手法で訓練される。

実験結果

リサーチクエスチョン

RQ1ターゲットドメインにラベル付きデータを一切必要としない統合的深層学習フレームワークが、教師なしドメイン適応を効果的に実現できるか。
RQ2異なるデータ分布を持つドメイン間で特徴をアライメントする目的で、画像間変換技術をどのように応用できるか。
RQ3サイクル整合性とドメインに依存しない特徴学習を強制することで、クロスドメイン画像分類およびセグメンテーションにおける一般化性能がどの程度向上するか。
RQ4本フレームワークは、合成から実世界へのドライブシーン変換（例：GTA5 から Cityscapes）やクロスデータセット間の数字認識など、多様なドメインに一般化可能か。
RQ5従来のドメイン適応手法と比較して、性能およびロバスト性の面で本手法はどのように優れているか。

主な発見

提案手法は、MNIST、USPS、SVHN の数字分類ベンチマークで最先端の性能を達成し、先行する教師なしドメイン適応手法を上回る。
Office-Home データセット（Amazon、Webcam、DSLR）において、ターゲットアノテーションなしで、クロスドメイン画像分類において優れた正確性を達成した。
GTA5（合成）から Cityscapes（実世界）へのセマンティックセグメンテーションにおいて、平均交差率（mIoU）を顕著に向上させ、道路、歩道、建物のセグメンテーションにおける大規模な誤差を是正した。
GTA5 から Cityscapes へのセグメンテーションにおいて、既存手法を上回り、DenseNetアーキテクチャと組み合わせることで、複雑な実世界シーンへの強い一般化能力を示した。
アブレーションスタディの結果、アイデンティティ損失および再構成損失は大規模画像において十分であり、サイクル整合性は計算コストが高く、高解像度設定では省略可能であることが示された。
共有デコーダ重みと敵対的特徴アライメントの使用により、ドメイン間でよりロバストで分離された特徴表現が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。