QUICK REVIEW

[論文レビュー] Cross-domain Correspondence Learning for Exemplar-based Image Translation

Pan Zhang, Bo Zhang|arXiv (Cornell University)|Apr 12, 2020

Generative Adversarial Networks and Image Synthesis参考文献 51被引用数 24

ひとこと要約

本稿では、入力（例：セグメンテーションマスク、エッジマップなど）を中間特徴空間にアライメントすることで、ドメイン間の対応関係とエキスプレムベースの画像変換を同時に学習する弱教師付きフレームワーク、CoCosNetを提案する。エキスプレム画像からの意味的に整合したパッチを活用することで、詳細なスタイルの一貫性を保ちつつ、写真のようなリアルな出力を生成し、画像の質と意味的整合性の両面で最先端の手法を上回る。

ABSTRACT

We present a general framework for exemplar-based image translation, which synthesizes a photo-realistic image from the input in a distinct domain (e.g., semantic segmentation mask, or edge map, or pose keypoints), given an exemplar image. The output has the style (e.g., color, texture) in consistency with the semantically corresponding objects in the exemplar. We propose to jointly learn the crossdomain correspondence and the image translation, where both tasks facilitate each other and thus can be learned with weak supervision. The images from distinct domains are first aligned to an intermediate domain where dense correspondence is established. Then, the network synthesizes images based on the appearance of semantically corresponding patches in the exemplar. We demonstrate the effectiveness of our approach in several image translation tasks. Our method is superior to state-of-the-art methods in terms of image quality significantly, with the image style faithful to the exemplar with semantic consistency. Moreover, we show the utility of our method for several applications

研究の動機と目的

画像間の密な意味的ドメイン間対応関係（例：セグメンテーションマスクから写真への変換）を、明示的な対応関係アノテーションなしで学習する課題に対処すること。
エキスプレムからの空間的に注意を払った外観転送を活用することで、インスタンスレベルのスタイル忠実度を実現するエキスプレムベースの画像変換を可能にすること。
グローバルスタイルベクトルに依存しない、弱教師付きで統合的なフレームワークを構築し、対応関係と変換を同時に最適化することで、局所的なテクスチャ詳細を失うのを回避すること。
暗黙的に学習された密な対応関係を活用して、セマンティック画像編集やメイクアップトランスファーのような新しい応用を可能にすること。
グローバルスタイルコードやタスク固有の設計に依存する従来手法の制限を克服し、汎用的でエンドツーエンドで学習可能なソリューションを導入すること。

提案手法

共通の監視信号を用いてエンドツーエンドに訓練される、2ストリームネットワークアーキテクチャを導入：ドメイン間対応関係ネットワークと変換ネットワーク。
ソースドメイン（セグメンテーション、エッジ、ポーズなど）からの入力画像とエキスプレム画像を、密な対応関係を信頼性高く確立できる共有の中間特徴空間にマップする。
学習された意味的対応関係に基づいてエキスプレムをワープすることで、出力画像を合成するための空間可変なデノーマライゼーションブロックを変換ネットワークに適用する。
訓練の安定化とアライメントの向上を目的に、ドメインアライメント損失（$\mathcal{L}_{\text{domain}}^{\ell_1}$）、特徴再構成損失（$\mathcal{L}_{\text{feat}}$）、知覚損失（$\mathcal{L}_{\text{perc}}$）、コンテキスト損失（$\mathcal{L}_{\text{context}}$）、対応関係正則化損失（$\mathcal{L}_{\text{reg}}$）からなるマルチコンポonent損失関数を適用する。
両方のタスクを同時に訓練することで弱教師付きの監視を活用し、それぞれのタスクが他方を向上させるが、教師強制対応関係や合成ターゲットの正確なアノテーションは不要である。
学習された密な特徴を用いてスパarsな対応関係予測を可能にし、エッジマップやキーポイントヒートマップのような低情報ドメインに対しても一般化可能である。

実験結果

リサーチクエスチョン

RQ1真の対応関係アノテーションが存在しない弱教師付き設定において、密なドメイン間対応関係を効果的に学習できるか？
RQ2対応関係と画像変換を同時に学習することで、別々に訓練する場合と比較して、エキスプレムベースの画像合成の質と意味的整合性が向上するか？
RQ3暗黙的に学習された対応関係は、セマンティック画像編集やメイクアップトランスファーのような実用的応用を可能にするか？
RQ4個々の損失コンponentsが、対応関係と変換タスクにおけるモデルの頑健性と性能にどのように寄与しているか？
RQ5グローバルスタイル符号化手法と比較して、本手法はインスタンスレベルでエキスプレムの細かいテクスチャと色の詳細をどの程度保持しているか？

主な発見

完全なCoCosNetモデルは、同じ評価プロトコル下でFID（Fréchet Inception Distance）14.3を達成し、次に良い手法（21.1）を顕著に上回る画像品質を実現した。
意味的整合性スコアは0.949、スタイル関連性スコアは色（0.977）、テクスチャ（0.958）であり、エキスプレムの外観をグローバルおよびローカルレベルで高精度に再現していることを示している。
アブレーションスタディの結果、ドメインアライメント損失（$\mathcal{L}_{\text{domain}}^{\ell_1}$）を削除すると、過剰に滑らかになるワープと対応関係学習の失敗が生じ、その重要性が浮き彫りになった。
対応関係正則化損失（$\mathcal{L}_{\text{reg}}$）は、誤ったアライメント（例：顔が髪にマッピングされる）を防ぐために不可欠であり、その欠如により、妥当な出力であっても意味的に整合性のないワープが生じる。
ユーザースタディの結果、CoCosNetは画像品質で84.2%のケース、スタイル関連性で93.8%のケースで1位を獲得し、顕著な知覚的優位性を確認した。
エッジマップのようなスパarsな入力に対しても、意味のあるドメイン間対応関係を確立できることを示し、低意味的コンテンツドメインに対しても高いロバスト性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。