[論文レビュー] Domain Stylization: A Strong, Simple Baseline for Synthetic to Real Image Domain Adaptation
本論文は Domain Stylization (DS) を提案する。これは簡易な非 GAN アプローチで、ランダムにペアリングされた実画像を用いて合成画像をスタイル適用し、合成データと実データのギャップを埋める。GANを訓練せずにセマンティックセグメンテーションと物体検出で最先端の成果を達成する。
Deep neural networks have largely failed to effectively utilize synthetic data when applied to real images due to the covariate shift problem. In this paper, we show that by applying a straightforward modification to an existing photorealistic style transfer algorithm, we achieve state-of-the-art synthetic-to-real domain adaptation results. We conduct extensive experimental validations on four synthetic-to-real tasks for semantic segmentation and object detection, and show that our approach exceeds the performance of any current state-of-the-art GAN-based image translation approach as measured by segmentation and object detection metrics. Furthermore we offer a distance based analysis of our method which shows a dramatic reduction in Frechet Inception distance between the source and target domains, offering a quantitative metric that demonstrates the effectiveness of our algorithm in bridging the synthetic-to-real gap.
研究の動機と目的
- 現実世界のビジョンタスクにおける合成データ使用時の共変量シフトに対処する。
- セマンティックコンテンツを保持しつつ、実画像を用いて合成画像をスタイル適用する簡易な非 GAN 手法を提案する。
- 複数のベンチマークにおいてセマンティックセグメンテーションと物体検出の最先端性能を示す。
- 合成ドメインと実ドメインの分布合わせを定量化する Frechet Inception Distance (FID) 分析を提供する。
- 反復的なドメインスタイライゼーションとその性能への影響について実践的な洞察を提供する。
提案手法
- 既存のフォトリアリスティックスタイル転送アルゴリズム(FastPhotoStyle)を用い、合成画像をランダムに選択された実画像でスタイル適用する。
- スタイリング中に合成画像に関連付けられたセグメンテーションマスクを変更せず、意味的内容を保持する。
- 予測実画像マスクを用いてスタイル転送を洗練させるため、推定を伴う反復的なセマンティックセグメンテーションネットワークの訓練と合成データの再スタイル化を行う(Algorithm 1)。
- スタイルを実画像スタイルと組み合わせた合成画像集合 D^S を生成し、スタイライズされたデータ上で SSL ネットワークを訓練する。
- Cityscapes(GTA/SYNTHIA から Cityscapes)および NYU/SUNCG(SUNCG から NYU)に対して、GAN ベースの翻訳とドメインランダマイズのベースラインと DS を評価する。
- 分布整合を定量化するために Frechet Inception Distance (FID) を用い、セグメンテーションに配慮したスタイライゼーションを使用すると低減を示す。
実験結果
リサーチクエスチョン
- RQ1フォトリアリスティックなスタイル転送ベースの DS 手法は、合成から実データへのドメイン適応において GAN ベースの画像翻訳を上回るのか。
- RQ2セマンティケーションマップの有無を問わず、実スタイルで合成画像をスタイリングするとセグメンテーションと検出性能にどう影響するのか。
- RQ3DS は FID で定量的な分布シフトを低減できるのか、そしてセグメンテーションマスクの粒度はどのように影響するのか。
- RQ4反復的な DS および SSL が最終的なパフォーマンスに与える影響は、街路シーン、室内シーン、物体検出の各タスクでどう現れるのか。
主な発見
- DS は GTA→Cityscapes および SYNTHIA→Cityscapes におけるセマンティックセグメンテーションで、GAN ベースの翻訳手法と比較して優位または競合する精度を達成する。
- セグメンテーションマップを用いた DS は、マスクなしの DS よりも多くの改善を複数の設定でもたらす。
- DS は合成データを用いたベースラインより KITTI の物体検出性能を向上させ、いくつかの GAN ベース手法を上回る。
- FID 分析は、特にセグメンテーションマップが使用される場合、合成→実データ間の分布距離を著しく低減することを示している。
- 反復的な DS/SSL 手法はさらなる向上をもたらすが、2 回の反復以降は利得が低減する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。