QUICK REVIEW

[논문 리뷰] Unpaired Image-to-Image Translation via Neural Schrödinger Bridge

Beomsu Kim, Gihyun Kwon|arXiv (Cornell University)|2023. 05. 24.

Model Reduction and Neural Networks인용 수 9

한 줄 요약

UNSB는 Schrödinger bridges를 adversarial하게 학습된 생성기의 시퀀스로 재구성하여 고해상도 비대칭 이미지-투-이미지 번역에서 차원의 저주를 해결합니다.

ABSTRACT

Diffusion models are a powerful class of generative models which simulate stochastic differential equations (SDEs) to generate data from noise. While diffusion models have achieved remarkable progress, they have limitations in unpaired image-to-image (I2I) translation tasks due to the Gaussian prior assumption. Schrödinger Bridge (SB), which learns an SDE to translate between two arbitrary distributions, have risen as an attractive solution to this problem. Yet, to our best knowledge, none of SB models so far have been successful at unpaired translation between high-resolution images. In this work, we propose Unpaired Neural Schrödinger Bridge (UNSB), which expresses the SB problem as a sequence of adversarial learning problems. This allows us to incorporate advanced discriminators and regularization to learn a SB between unpaired data. We show that UNSB is scalable and successfully solves various unpaired I2I translation tasks. Code: \url{https://github.com/cyclomon/UNSB}

연구 동기 및 목표

Gaussian priors를 넘어 분포-간 분포 전송에 유연성을 제공하는 대칭 이미지-투-이미지 번역의 동기를 부여합니다.
고차원 이미지 데이터에서 기존 Schrödinger-bridge 방법의 주요 장애물로 차원의 저주를 식별합니다.
적대적 손실과 KL 제약으로 학습된 생성기의 시퀀스로 SB를 표현하기 위해 UNSB를 제안합니다.
UNSB가 256x256 이미지에 대해 확장 가능하며 벤치마크 작업에서 1단계 GAN 기반 및 확산 기반 방법보다 우수할 수 있음을 보입니다.

제안 방법

SB 문제를 [0,1]의 시점 t_i 시퀀스로 형식화하고 소스 도메인 샘플을 타깃 도메인 샘플로 매핑하는 조건부 생성기 q_phi(x_1|x_{t_i})를 학습합니다.
q_phi(x_1)와 실제 타깃 분포 p(x_1)을 정렬하기 위해 KL-발산 제약(대적 학습을 통해)을 부여합니다.
시간에 따라 매개변수를 공유하기 위해 시간 조건부 신경망을 사용합니다: q_phi(x_1|x_{t_i}, t_i).
SB를 확률적-제어/정적 형식으로 표현하여 학습된 비용 및 엔트로피 항을 포함하는 단계별 전송으로 분해할 수 있도록 합니다.
차원 저주를 완화하기 위해 x_0와 예측된 x_1 간의 일관성을 강제하는 고급 판별기(마코프/패치 기반 등)와 규제를 도입합니다.
적대적 손실, SB(엔트로피-정규화된 전송) 항, 그리고 규제를 결합하는 UNSB 목표를 최적화하기 위해 중간 상태 x_{t_i}의 차례로 샘플링하며 훈련합니다.

Figure 1: Left: Illustration of trajectories for Vanilla SB and UNSB. Due to the curse of dimensionality, observed data in high dimensions become sparse and fail to describe image manifolds accurately. Vanilla SB learns optimal transport between observed data, leading to undesirable mappings. UNSB e

실험 결과

연구 질문

RQ1Schrödinger bridges를 간단한 가우시안 priors에 의존하지 않고도 고해상도 비대칭 이미지-투-이미지 번역에 직접 학습시킬 수 있습니까?
RQ2다중 단계의 적대적으로 학습된 SB(UNSB)가 차원의 저주를 완화하고 벤치마크 표준에서 1단계 GAN 및 확산 기반 I2I 방법보다 우수합니까?
RQ3고급 판별기와 규제가 고차원 이미지 공간에서 번역의 품질과 다양성에 어떤 영향을 미칩니까?

주요 결과

UNSB는 차원의 저주를 적대적 학습 및 규제 이용으로 시간 단계 전반의 생성기 구성을 학습함으로써 극복합니다.
토이 데이터셋과 실제 데이터셋에서 UNSB는 충실도(FID/KID)와 구조 보존 측면에서 256x256 해상도에서 NOT 및 다른 SB 변형을 능가합니다.
UNSB는 Horse2Zebra, Summer2Winter, Label2Cityscape, Map2Satellite 작업에서 CycleGAN, CUT 및 확산 기반 베이스라인과 비교하여 경쟁력 있거나 우수한 결과를 보입니다.
다단계 전략, 패치 기반 판별기, 규제를 추가하면 성능이 점진적으로 향상된다는 분석 결과가 있습니다.
NFE 분석에서 최적의 결과가 약 3–5 단계에서 나타나고, advanced discriminators 및 regularization을 사용할 때는 비교적 modest NFE에서도 매우 경쟁력 있는 결과가 나타납니다.
정성적 결과는 UNSB가 소스 구조를 보존하면서 도메인 특유의 스타일로 효과적으로 변환된다는 것을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.