[論文レビュー] Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation
この論文は、テクスチャ多様なスタイライズされたソースデータセットを作成し、自己学習でファイニングしてターゲットのテクスチャに適合させることで、セマンティック分割のドメイン適応を改善し、GTA5→Cityscapesの最先端結果を達成します。
Since annotating pixel-level labels for semantic segmentation is laborious, leveraging synthetic data is an attractive solution. However, due to the domain gap between synthetic domain and real domain, it is challenging for a model trained with synthetic data to generalize to real data. In this paper, considering the fundamental difference between the two domains as the texture, we propose a method to adapt to the texture of the target domain. First, we diversity the texture of synthetic images using a style transfer algorithm. The various textures of generated images prevent a segmentation model from overfitting to one specific (synthetic) texture. Then, we fine-tune the model with self-training to get direct supervision of the target texture. Our results achieve state-of-the-art performance and we analyze the properties of the model trained on the stylized dataset with extensive experiments.
研究の動機と目的
- 合成データと実データ間のピクセルレベルのセマンティックセマンティック分割のドメインギャップを縮小する動機付け。
- テクスチャを基本的なドメイン差として認識するテクスチャ重視のアプローチを提案。
- テクスチャを多様化したスタイライズドソースデータセットを作成し、テクスチャに不変な表現を学習。
- 自己学習を用いてターゲットドメインのテクスチャへ直接適応する。
- GTA5→Cityscapesでの最先端結果を示し、テクスチャの影響を分析。
提案手法
- スタイル転送手法(Style-swap)を用いてソースデータの合成テクスチャを除去し、テクスチャを多様化。
- CycleGANを用いてターゲットドメインへ方向付けることでソース画像をターゲット領域へ翻訳。
- スタイライズドおよび翻訳されたソースの組み合わせと出力レベルの対抗的整合を用いた訓練。
- Stage 1ではスタイライズドと翻訳済み入力を対になるよう交互に用い、対抗的特徴整合と共にテクスチャ不変表現を得る。
- Stage 2ではターゲットドメインのテクスチャ上で自己訓練を行い、疑似ラベルを用いてモデルを微調整。
- 頑健性を評価し、CycleGANベースおよび他のドメイン適応手法と比較する。
実験結果
リサーチクエスチョン
- RQ1スタイライズされた合成データの多様なテクスチャがセマンティック分割のテクスチャ不変表現を促進するか。
- RQ2テクスチャ多様化されたスタイライズドデータと翻訳ベースのドメイン整合を組み合わせると実データ→合成データ転移は改善されるか。
- RQ3ターゲットのテクスチャ上での自己訓練は最終的な分割性能にどう影響するか。
- RQ4提案されたテクスチャ重視アプローチはCycleGANベースのドメイン適応手法とどう比較されるか。
- RQ5テクスチャ不変性は画像の摂動に対する頑健性にどのような影響を与えるか。
主な発見
| Dataset | Method | mIoU |
|---|---|---|
| GTA5→Cityscapes | Ours (Stylized + Translated + Adversarial + Stage 2 Self-Training) | 92.9 |
| SYNTHIA→Cityscapes | Ours (Stylized + Translated + Adversarial + Stage 2 Self-Training) | 92.6 |
- 私たちの手法はGTA5→Cityscapesでの平均IoUが92.9、SYNTHIA→Cityscapesで92.6を達成し、報告された表で最先端を記録。
- Stage 1(テクスチャ不変学習)は、スタイライズドと翻訳済みソースの両方と対抗的損失を用いることでアブレーションより有利になり、効果を示す。
- Stage 2の自己訓練は大幅な改善をもたらす(Stage 2-3: GTA5→Cityscapesで50.2 IoU、3回反復)。
- スタイライズドデータは大域的なテクスチャ感度を持つクラス(例:道路、歩道)に対して、小規模領域のテクスチャ不変クラスよりも顕著に改善をもたらす。
- CycleGANベースの手法(例:CyCADA)と比較して、Style-swapベースのスタイライゼーションはアーティファクトを回避し、計算効率が高く、同等かそれ以上の結果を達成。
- 本手法は一般的なノイズ・劣化への頑健性を示し、形状依存性能を維持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。