QUICK REVIEW

[논문 리뷰] ImageBART: Bidirectional Context with Multinomial Diffusion for Autoregressive Image Synthesis

Patrick Esser, Robin Rombach|arXiv (Cornell University)|2021. 08. 19.

Generative Adversarial Networks and Image Synthesis참고 문헌 68인용 수 51

한 줄 요약

ImageBART는 다항 확산 과정을 역전시켜 자기회귀 이미지 합성에 양방향 컨텍스트를 주입하는 거친-정교한 계층 프레임워크를 제시하여 고충실도 생성과 유연한 국소 편집을 가능하게 한다.

ABSTRACT

Autoregressive models and their sequential factorization of the data likelihood have recently demonstrated great potential for image representation and synthesis. Nevertheless, they incorporate image context in a linear 1D order by attending only to previously synthesized image patches above or to the left. Not only is this unidirectional, sequential bias of attention unnatural for images as it disregards large parts of a scene until synthesis is almost complete. It also processes the entire image on a single scale, thus ignoring more global contextual information up to the gist of the entire scene. As a remedy we incorporate a coarse-to-fine hierarchy of context by combining the autoregressive formulation with a multinomial diffusion process: Whereas a multistage diffusion process successively removes information to coarsen an image, we train a (short) Markov chain to invert this process. In each stage, the resulting autoregressive ImageBART model progressively incorporates context from previous stages in a coarse-to-fine manner. Experiments show greatly improved image modification capabilities over autoregressive models while also providing high-fidelity image generation, both of which are enabled through efficient training in a compressed latent space. Specifically, our approach can take unrestricted, user-provided masks into account to perform local image editing. Thus, in contrast to pure autoregressive models, it can solve free-form image inpainting and, in the case of conditional models, local, text-guided image modification without requiring mask-specific training.

연구 동기 및 목표

자기회귀 이미지 생성의 단방향 어텐션 편향을 양방향 컨텍스트를 도입해 극복한다.
이미지를 압축하고 AR 단계에 글로벌 컨텍스트를 제공하기 위해 고정된 다항 확산 과정을 사용하는 거친-정교한 계층 모델을 개발한다.
마스크에 대한 특수한 학습 없이도 유연한 조건부 이미지 합성 및 로컬 사용자가 안내하는 편집을 가능하게 한다.
이산 잠재 공간에서 확산 과정을 역전시키기 위한 마르코프 체인을 학습시켜 높은 충실도 생성을 달성한다.
다양한 데이터셋에서 개선된 수정 기능과 경쟁력 있는 샘플 품질을 시연한다.

제안 방법

데이터 x_0와 거친 표현 x_T가 되도록 x_{0:T}를 형성하고 x_{t-1} ~ p^{t-1}_{theta}(x_{t-1}|x_t)인 계층적 분포 시퀀스 p^t_theta를 학습한다.
전방 다항 확산 q_theta를 사용해 x_{t-1}를 점진적으로 x_t로 손상시키고, tractable KL bound와 ELBO 기반 학습 목적(Eq. 2)을 가능하게 한다.
1단계(L1)에서 벡터 양자화 자동인코더를 통해 이미지의 이산적 압축 표현을 학습하고 재구성 손실(L_rec)과 대립 현실성(L_adv)을 포함한다.
이후 단계(L_t, t>1)는 x_t에서 글로벌 컨텍스트를 활용해 더 미세한 레벨을 모델링하고, 인코더 표현에 의해 주의되는 교차 어텐션으로 조건화된 자기회귀 디코더를 사용한다.
역방향 프로세스 p^{t-1}_{theta}(x_{t-1}|x_t)을 인코더-디코더 트랜스포머로 자동회귀적으로 모델링하여 모든 역단계에서 가중치 공유를 요구하지 않고 양방향 컨텍스트를 가능하게 한다.
전방 과정 q_theta를 고정된 beta_t 이항/다항 확산 단계로 처리하고 t>2에 대해 해석적 KL 항을, t=2에 대해 몬테카를로 추정(Eq. 7–8)을 허용한다.
데이터셋마다 T를 선택하고 축별로 병렬로 위계 구조를 학습시켜 심한 손실 가중치 부여와 그래디언트 노이즈를 피한다(예: FFHQ에 대해 T=3, ImageNet 조건화에 대해 T=5).
p^{t-1}_{theta} 앞에 토큰을 접두사로 추가해 조건을 유연하게 해주어 클래스 조건부 및 텍스트-이미지 합성을 지원한다(섹션 4.2).

실험 결과

연구 질문

RQ1트랙: 트actable한 밀도 분해를 깨지 않고도 자기회귀 이미지 합성에 양방향 글로벌 컨텍스트를 어떻게 통합할 수 있는가?
RQ2거친-정교한 이산 계층 확산 프레임워크가 순수 AR 또는 픽셀 스페이스 확산 모델 대비 이미지 충실도와 편집 능력을 향상시키는가?
RQ3마스크 특화 학습 없이도 유연한 조건화(클래스 라벨, 텍스트) 및 자유 형식 로컬 편집(마스크 기반)을 모델이 지원할 수 있는가?
RQ4이러한 위계 설정에서 확산 단계 수, 모델 용량, 샘플링 속도 간의 트레이드오프는 어떠한가?
RQ5무작정적 및 조건부 생성 작업에서 다양한 데이터셋에 걸친 성능은 어떠한가?

주요 결과

ImageBART는 거친-정교한 계층을 통해 글로벌 컨텍스트를 점진적으로 도입하여 순수 AR 모델보다 일관성을 개선하고 고충실도 이미지 합성을 달성한다.
다항 확산 기반의 전방 프로세스와 자기회귀 역전 패스는 효율적인 학습을 가능하게 하고 큰 규모의 컨텍스트 통합을 샘플 복잡성에 큰 부하 없이 허용한다.
모델은 다양한 조건화(클래스 라벨 및 텍스트)를 지원하고 자유 형식 마스크 기반 인페인팅을 포함한 로컬 편집을 가능하게 하며 마스크에 대한 작업 특화 학습이 필요 없다.
경험적 결과는 다수의 데이터셋에서 prior likelihood 기반 및 스코어 기반 방법보다 경쟁적이거나 우수한 성능을 보여주며 특히 복잡한 장면에서(예: ImageNet, LSUN 변형) 두드러진다.
확산 단계 수(T)를 조정하면 수정 및 글로벌 일관성에서 이점이 생기지만, 무작위 생성의 경우 중간 T를 넘으면 이점이 감소한다.
경험적으로, 레벨 간 독립적 학습과 각 레벨마다 고정된 전방 확산을 사용하면 병렬 최적화 및 안정적인 학습이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.