Skip to main content
QUICK REVIEW

[論文レビュー] FDA: Fourier Domain Adaptation for Semantic Segmentation

Yanchao Yang, Stefano Soatto|arXiv (Cornell University)|Apr 11, 2020
Domain Adaptation and Few-Shot Learning参考文献 57被引用数 61
ひとこと要約

FDA は、ソース画像とターゲット画像間で低周波数のフーリエ振幅を入れ替えることにより、トレーニングを伴わないドメイン適応をゼロトレーニングで実現し、教師なし学習を半教師あり学習へと変換して、GTA5/SYNTHIA から CityScapes へのベンチマークで最先端の結果を達成します。

ABSTRACT

We describe a simple method for unsupervised domain adaptation, whereby the discrepancy between the source and target distributions is reduced by swapping the low-frequency spectrum of one with the other. We illustrate the method in semantic segmentation, where densely annotated images are aplenty in one domain (synthetic data), but difficult to obtain in another (real images). Current state-of-the-art methods are complex, some requiring adversarial optimization to render the backbone of a neural network invariant to the discrete domain selection variable. Our method does not require any training to perform the domain alignment, just a simple Fourier Transform and its inverse. Despite its simplicity, it achieves state-of-the-art performance in the current benchmarks, when integrated into a relatively standard semantic segmentation model. Our results indicate that even simple procedures can discount nuisance variability in the data that more sophisticated methods struggle to learn away.

研究の動機と目的

  • セマンティックセグメンテーションにおけるドメインギャップを低減する、訓練負荷の少ないシンプルなアプローチを動機づける。
  • 敵対的学習なしで、低レベルのフーリエドメイン統計量を活用してソースとターゲットの分布を合わせる。
  • FDA が標準的なベンチマークで複雑なドメイン適応法を上回ることを実証する。
  • FDA を半教師あり学習フレームワークに組み込み、セグメンテーション品質をさらに向上させる。

提案手法

  • 画像の FFT を計算し、β中心マスクを用いて低周波振幅成分を入れ替える。
  • ソース画像の元の位相を保ちながら、逆 FFT で適応後の画像を再構成する。
  • 適応後のソース画像でクロスエントロピー損失を用いてセグメンテーションネットワークを訓練する。
  • ターゲット予測にエントロピーベースの重みづけを適用して、確信度が高く、はっきりと分離した出力を奨励する。
  • β値を変えて複数のモデルを訓練し、それらの予測を平均して自己教師付きの疑似ラベルとすることで Multi-band Transfer (MBT) を導入する。
  • オプション: エントロピー最小化(FDA-ENT)と MBT を組み込んで性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1敵対的学習を用いずに、ソースとターゲット画像間の低周波スペクトル整合だけでセマンティックセグメンテーションのドメインシフトを低減できるか。
  • RQ2FDA をゼロショット整合法として、標準的な合成-to-real ベンチマークでより複雑なUDA手法を上回るか。
  • RQ3FDA をエントロピーベースの正則化およびMBTと組み合わせると、基準FDAより半教師付き改善をもたらすか。
  • RQ4FDA がスペクトル近傍サイズパラメータ β にどの程度敏感か、マルチスケール/MBT 戦略がこの感度を緩和できるか。

主な発見

  • 単一スケールの beta を用いた FDA は強力な性能を達成し、GTA5→CityScapes ではいくつかの敵対的ドメイン手法を上回り、バックボーンをまたいでも頑健性を保つ。
  • エントロピー正規化されたFDA(FDA-ENT)は、より複雑な整列手法に匹敵する結果を生む。
  • β 値の異なるモデルの予測を平均化する MBT は、単一 β モデルより一貫した改善をもたらす。
  • MBT からの疑似ラベルを用いた自己教師付きラウンドは性能をさらに向上させ、正則化が確証バイアスを防ぐ。
  • ベンチマークとバックボーンを跨いで、FDAベースの手法は、画像翻訳や敵対的訓練に依存する最先端手法と比較してトップまたは競合的な mIoU を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。