[論文レビュー] One-Shot Unsupervised Cross Domain Translation
本稿では、1枚のソースドメイン画像と、ターゲットドメインから事前学習された変分オートエンコーダー(VAE)を用いて、教師なしクロスドメイン画像変換を実現するOST(One-Shot Translation)を提案する。共有特徴を保持しつつ、クローンされたVAEの非共有層を1枚のソース画像に適応させることで、フルデータセットで学習された既存手法と同等の性能を達成し、低ショット設定における強力な一般化能力を示している。
Given a single image x from domain A and a set of images from domain B, our task is to generate the analogous of x in B. We argue that this task could be a key AI capability that underlines the ability of cognitive agents to act in the world and present empirical evidence that the existing unsupervised domain translation methods fail on this task. Our method follows a two step process. First, a variational autoencoder for domain B is trained. Then, given the new sample x, we create a variational autoencoder for domain A by adapting the layers that are close to the image in order to directly fit x, and only indirectly adapt the other layers. Our experiments indicate that the new method does as well, when trained on one sample x, as the existing domain transfer methods, when these enjoy a multitude of training samples from domain A. Our code is made publicly available at https://github.com/sagiebenaim/OneShotTranslation
研究の動機と目的
- ソースドメインから1つのサンプルしか入手できない状況において、教師なしクロスドメイン変換の課題に取り組むこと。
- 認知エージェントが、ソースドメインの複数の例に事前にさらされていなくても、ターゲットドメインで類似画像を生成できるようにすること。
- 両ドメインから大規模なトレーニングデータを必要とする既存の教師なしドメイン変換モデルの限界を克服すること。
- 1枚のソース画像に過学習を避ける一方で、低ショット状況でも良好に一般化できる手法を開発すること。
- 2段階アプローチ(ターゲットドメインで事前学習し、1枚のソース画像でファインチューニング)が、フルデータセットで学習した手法と同等の性能を達成できることを検証すること。
提案手法
- まず、ドメインBの多数の画像からなる大規模なデータセットを用いて、変分オートエンコーダー(VAE)を学習し、その潜在表現を学習し、サンプルを生成する。
- VAEをクローンして、ドメインB用とドメインAの1枚の画像x用の2つの別々のオートエンコーダーを生成する。
- 2つのオートエンコーダーは、上部のエンコーダー層と下部のデコーダー層を共有することで、特徴の転送を可能にするとともに、ドメイン固有の適応を許容する。
- 再構成損失を両ドメインで、および1方向の円環性損失(one-way circularity loss)を用いてトレーニングを実施し、xとそのドメインBへの変換結果の間の整合性を強制する。
- 勾配は、ソース画像xから出力されるもののみ、非共有層を通じてバックプロパゲートされ、共有特徴が保持され、過学習が抑制される。
- ドメインBおよび1枚のソース画像xの両方に対して、データ拡張が適用され、トレーニングの安定性と一般化性能が向上する。
実験結果
リサーチクエスチョン
- RQ1ソースドメインから1枚の画像しか入手できない状況でも、教師なしクロスドメイン画像変換を効果的に行うことができるか?
- RQ2ターゲットドメインで事前学習し、1枚のソース画像でファインチューニングする2段階的手法が、低ショット設定において既存手法を上回る性能を示せるか?
- RQ3ドメイン間で共有された特徴学習が、1枚のソース画像しか存在しない状況で過学習を防げるか?
- RQ4提案手法の性能が、フルデータセットで学習された既存手法と同等であるか?
- RQ5最先端モデルと比較して、コンテンツ保持性とスタイル変換の観点で、本手法はどの程度の性能を示すか?
主な発見
- OSTは、入力画像との知覚的類似性を、全データセットで学習したモデルと同等に達成しており、Summer2Winterでは0.64、Winter2Summerでは0.73の知覚的距離を示した。
- ユーザースタディーにおいて、OSTはCycleGANやUNIT(全データセットで学習)と同等またはそれを上回る性能を示し、Facades-to-Imagesの翻訳結果について91%のユーザーが正しく認識した。
- Monet-to-Photoタスクでは、1つのサンプルで学習した場合に、OSTの知覚的距離は3.75であり、CycleGAN(3.53)とUNIT(6.82)を上回った。
- Monet-to-Photoタスクにおいて、OSTは1.20の低いスタイル差異(style difference)を維持しており、ターゲットドメインとの強いスタイル整合性を示しており、フルデータセットで学習したモデルと同等の性能を示した。
- Maps-to-Aerial-Viewタスクでは、ユーザースタディーで56%の正答率を達成し、CycleGAN(45%)とUNIT(37%)を上回った(1枚のサンプルで学習した場合)。
- 本手法は、Cityscapes-to-LabelsやFacades-to-Imagesを含む多様なタスクにおいても、一貫した性能向上を示し、低ショット状況でも頑健であることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。