QUICK REVIEW

[論文レビュー] Unsupervised Domain Adaptation in Semantic Segmentation: a Review

Marco Toldo, Andrea Maracani|arXiv (Cornell University)|May 21, 2020

Domain Adaptation and Few-Shot Learning参考文献 118被引用数 27

ひとこと要約

本調査は、意味的セグメンテーションにおける教師なしドメイン適応（UDA）技術について包括的なレビューを提供し、適応レベル（入力、特徴量、出力）および学習パラダイム（敵対的学習、自己学習、エントロピー最小化など）に基づいて手法を分類している。最適な設定下で、ResNet-101ベースのモデルがGTA5からCityscapesへの適応において最先端の性能を達成しており、mIoUは最大68.5％に達する。

ABSTRACT

The aim of this paper is to give an overview of the recent advancements in the Unsupervised Domain Adaptation (UDA) of deep networks for semantic segmentation. This task is attracting a wide interest, since semantic segmentation models require a huge amount of labeled data and the lack of data fitting specific requirements is the main limitation in the deployment of these techniques. This problem has been recently explored and has rapidly grown with a large number of ad-hoc approaches. This motivates us to build a comprehensive overview of the proposed methodologies and to provide a clear categorization. In this paper, we start by introducing the problem, its formulation and the various scenarios that can be considered. Then, we introduce the different levels at which adaptation strategies may be applied: namely, at the input (image) level, at the internal features representation and at the output level. Furthermore, we present a detailed overview of the literature in the field, dividing previous methods based on the following (non mutually exclusive) categories: adversarial learning, generative-based, analysis of the classifier discrepancies, self-teaching, entropy minimization, curriculum learning and multi-task learning. Novel research directions are also briefly introduced to give a hint of interesting open problems in the field. Finally, a comparison of the performance of the various methods in the widely used autonomous driving scenario is presented.

研究の動機と目的

教師なしドメイン適応（UDA）における意味的セグメンテーション分野の最近の進展を体系的に概説すること。
適応レベル（入力、特徴量、出力、またはネットワークレベル）および学習パラダイムに基づいて、既存のUDA手法を分類すること。
標準ベンチマーク上でのさまざまなUDA技術のパフォーマンスを分析し、特に自動運転分野で一般的な合成データから実データへのドメインシフト状況を対象とする。
オープンセットおよびボーダレスセットUDAを含む、未解決の問題と今後の研究方向性を特定すること。
Cityscapes、GTA5、SYNTHIAなどの広く使われているデータセット上で最先端の手法を比較し、バックボーンアーキテクチャごとのパフォーマンストレンドを強調すること。

提案手法

敵対的学習、生成モデル、分類器差分分析、自己学習、エントロピー最小化、カリキュラム学習、マルチタスク学習の7つの重複しないパラダイムにUDA手法を分類する。
入力レベル（例：画像スタイル変換）、特徴量レベル（例：ドメイン不変表現学習）、出力レベル（例：ドメイン間での予測一貫性）の3段階の適応戦略を分析する。
主な評価指標として平均交差率（mIoU）を採用し、$\mathrm{mIoU} = \sum_{i=1}^{N} \frac{\mathrm{IoU}_i}{N}$ で計算する。ここで $\mathrm{IoU}_i = \frac{TP_i}{TP_i + FP_i + FN_i}$ である。
標準ベンチマーク（GTA5 → Cityscapes および SYNTHIA → Cityscapes）上で手法をレビューおよび比較し、ResNet-101およびVGG-16をバックボーンとして使用する。
バックボーンアーキテクチャごとにmIoU結果を集約した図を用いてパフォーマンストレンドを可視化し、ResNet-101が他のアーキテクチャを一貫して上回ることを強調する。
エンコーダ・デコーダ構造（例：FCN、DeepLab、PSPNet）のようなアーキテクチャ的選択と、特徴量階層学習によるドメイン適応の実現に果たす役割を議論する。

実験結果

リサーチクエスチョン

RQ1入力、特徴量、出力の異なる適応レベルが、意味的セグメンテーションにおけるUDAのパフォーマンスにどのように影響を与えるか？
RQ2敵対的学習、自己学習、エントロピー最小化などの学習パラダイムの中で、クロスドメイン意味的セグメンテーションにおいて最も頑健なパフォーマンスを示すのはどれか？
RQ3GTA5からCityscapes、SYNTHIAからCityscapesへの標準ベンチマーク上での最先端のUDA手法の比較的パフォーマンスはどのようになるか？
RQ4なぜResNetベースのモデルは、意味的セグメンテーションにおけるUDAで一貫して他のアーキテクチャを上回るのか？
RQ5特にドメインシフトが予測不能かつ動的である実世界の展開を想定した場合、オープンセットおよび継続的学習設定におけるUDAの主な未解決問題と今後の研究方向性は何か？

主な発見

最適な評価プロトコル下で、GTA5からCityscapesへの適応において、ResNet-101ベースのモデルが最高のmIoUを達成しており、報告されたパフォーマンスは最大68.5％に達する。
VGG-16は、UDAにおける意味的セグメンテーションで最も広く使われているバックボーンであるが、複数のベンチマークでResNet-101が一貫して優れた性能を示す。
SYNTHIAからCityscapesへのベンチマークでは、16クラスを使用するモデルが13クラスを使用するモデルよりも高いmIoUを達成しており、クラスレベルの細分化が適応パフォーマンスに影響を与えることが示唆される。
Mapillaryデータセットにおいて最良の手法（Spadottoら、2020年）は、GTA5からの適応でmIoU 41.9を達成しており、より多様で複雑な現実世界のシーンへの適応の難しさを示している。
顕著な進展にもかかわらず、最良のUDAモデルでさえ、ターゲットドメインにおける教師あり学習のパフォーマンスに達していないため、さらなる改善の余地が大きい。
本調査では、実世界への展開を想定した場合に特に有望な今後の方向性として、オープンセットおよびボーダレスセットUDAが同定されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。