[論文レビュー] Contrastive Learning for Unpaired Image-to-Image Translation
本論文は、片側のみの非ペア画像間翻訳法(CUT)を提案し、入力パッチと出力パッチ間の相互情報量を多層のパッチ単位対比損失(PatchNCE)を用いて最大化する。これにより、サイクル整合性や逆写像なしで高品質な翻訳を実現する。
In image-to-image translation, each patch in the output should reflect the content of the corresponding patch in the input, independent of domain. We propose a straightforward method for doing so -- maximizing mutual information between the two, using a framework based on contrastive learning. The method encourages two elements (corresponding patches) to map to a similar point in a learned feature space, relative to other elements (other patches) in the dataset, referred to as negatives. We explore several critical design choices for making contrastive learning effective in the image synthesis setting. Notably, we use a multilayer, patch-based approach, rather than operate on entire images. Furthermore, we draw negatives from within the input image itself, rather than from the rest of the dataset. We demonstrate that our framework enables one-sided translation in the unpaired image-to-image translation setting, while improving quality and reducing training time. In addition, our method can even be extended to the training setting where each "domain" is only a single image.
研究の動機と目的
- サイクル整合性や同型写像に依存せず、ドメイン間での内容保持を動機づける。
- 対応する入力・出力パッチ間の相互情報量を最大化する対比学習目的を提案する。
- 内部(同一画像内)のネガティブが内容保持の信号をより強く生むことを示す。
- 軽量な片側翻訳パイプライン(CUT)を開発し、単一画像ペアでも動作することを可能にする。
提案手法
- エンコーダG_encとデコーダG_decを用いて2部構成の生成器を形成する。
- 複数のエンコーダ層にわたって対応する入力–出力パッチを整列させるために、 multilayer, patchwise InfoNCE loss (PatchNCE) を適用する。
- 同じ入力画像からネガティブをサンプルする(内部ネガティブ)ことで、InfoNCE損失の温度パラメータtauを用いた(N+1)-ウェイ分類を形成する。
- 任意で、移動平均エンコーダを用いた外部ネガティブサンプリング変種(external NCE)を含めることもできるが、内部ネガティブが最も性能を発揮する。
- サイクル整合性を、入力上のGAN損失と PatchNCE 損失の併用に置換して、ドメインのリアリズムと内容保持を強制する(必要に応じて出力にも適用)。
- アイデンティティ保持項を省略し、トレーニングを簡略化して性能を維持することで、より高速な変種(FastCUT)を提供する。
実験結果
リサーチクエスチョン
- RQ1対応する入力パッチと出力パッチ間の相互情報量を最大化することは、サイクル整合性なしに内容を保持した翻訳を可能にするのか?
- RQ2内部(同一画像内)のネガティブは、ドメイン間のパッチ対応を学習する際、外部ネガティブよりも優れているのか?
- RQ3多層のパッチ単位対比目的は、従来のサイクル整合性ベースの手法と、非ペア翻訳でどのように比較されるか?
- RQ4PatchNCEを用いて、ドメインごとに1枚の画像(ワンショット/単一画像翻訳)から非ペア翻訳を効果的に学習できるか?
- RQ5CUTとその高速変種 FastCUT との間で、トレーニング時間、メモリ、および品質のトレードオフはどうなるか?
主な発見
- 提案された PatchNCE ベースの損失は、Horse→Zebra や Cityscapes などのデータセットで、CycleGAN、MUNIT、DRIT、DistanceGAN、GcGAN などのベースラインより高品質な翻訳をもたらす。
- 入力画像からの内部ネガティブは、他の画像やメモリバンクから採取された外部ネガティブよりも優れている。
- パッチレベルの対比学習のために複数のエンコーダ層を使用すると、最後の層だけを用いる場合より内容保持と翻訳品質が向上する。
- 出力ドメイン(Y)上で PatchNCE を用いたアイデンティティ正則化バリアントは、学習の安定性を提供し、崩壊リスクを低減する。
- CUT は CycleGAN と比較してトレーニングが速く、メモリ使用量も少なく、FID や意味論的対応指標で競合的または優れた成績を示す。FastCUT はさらに計算コストを削減しつつ、同等の結果を維持する。
- 本手法は単一画像翻訳タスク(SinCUT)へ拡張可能で、各ドメインにつき1つの例だけを用いて高解像度の絵画-to-photo風スタイル転送を実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。