QUICK REVIEW

[논문 리뷰] Image Transformer

Niki Parmar, Ashish Vaswani|arXiv (Cornell University)|2018. 02. 15.

Generative Adversarial Networks and Image Synthesis참고 문헌 11인용 수 200

한 줄 요약

이 논문은 이미지 생성에 Transformer 아키텍처의 자기주의 메커니즘을 적용하기 위해 국소적 이웃 영역으로 주의를 제한함으로써, 큰 수신장과 효율적인 모델링이 가능한 이미지 트랜스포머를 소개한다. 이는 ImageNet에서 음의 로그우도 값 3.77을 기록하며 기존 최고 성능인 3.83을 초월한다.

ABSTRACT

Image generation has been successfully cast as an autoregressive sequence generation or transformation problem. Recent work has shown that self-attention is an effective way of modeling textual sequences. In this work, we generalize a recently proposed model architecture based on self-attention, the Transformer, to a sequence modeling formulation of image generation with a tractable likelihood. By restricting the self-attention mechanism to attend to local neighborhoods we significantly increase the size of images the model can process in practice, despite maintaining significantly larger receptive fields per layer than typical convolutional neural networks. While conceptually simple, our generative models significantly outperform the current state of the art in image generation on ImageNet, improving the best published negative log-likelihood on ImageNet from 3.83 to 3.77. We also present results on image super-resolution with a large magnification ratio, applying an encoder-decoder configuration of our architecture. In a human evaluation study, we find that images generated by our super-resolution model fool human observers three times more often than the previous state of the art.

연구 동기 및 목표

시퀀스 데이터를 위한 설계된 원래의 트랜스포머 아키텍처를 확장하여, 계산 가능하고 유의미한 가능도 추정이 가능한 이미지 생성에 적용한다.
이미지에서 전체 자기주의의 계산 비용이 과도한 문제를 해결하기 위해 주의를 국소적 공간 이웃 영역으로 제한한다.
계산량을 줄이면서도 큰 유효 수신장을 유지함으로써 이미지 생성 품질과 확장성을 향상시킨다.
제안된 아키텍처를 사용하여 이미지 생성 및 초해상도 작업에서 최고 성능을 입증한다.

제안 방법

모델은 표준 트랜스포머 디코더를 사용하며, 다중 헤드 자기주의를 적용하지만, 각 헤드가 이미지 내 국소적 공간 이웃 영역에서만 주의를 기울이도록 제한한다.
국소적 주의 메커니즘이 자기주의의 제곱 복잡도에도 불구하고 효율적인 계산과 더 큰 이미지에 대한 확장성을 가능하게 한다.
모델은 자동회귀적으로 학습되며, 인과적 모델링 가정 하에 계산 가능한 가능도를 갖는 방식으로 픽셀을 순차적으로 예측한다.
초해상도 작업을 위해 인코더-디코더 구조를 사용하며, 인코더는 저해상도 이미지를 처리하고 디코더는 고해상도 출력을 생성한다.
이 아키텍처는 표준 컨볼루션 네트워크보다 훨씬 큰 수신장을 각 레이어당 유지하여 특징 표현 능력을 향상시킨다.
표준 교차 엔트로피 손실과 레이어 스케일링, 학습률 스케줄링을 사용하여 학습을 최적화한다.

실험 결과

연구 질문

RQ1원래 순차적 데이터를 위한 설계된 트랜스포머 아키텍처가 가능도 추정이 계산 가능한 방식으로 이미지 생성에 효과적으로 적용될 수 있는가?
RQ2국소적 주의 제한이 큰 이미지에서 모델 성능과 확장성에 어떤 영향을 미치는가?
RQ3이미지 트랜스포머가 ImageNet 생성 작업에서 기존의 컨볼루션 및 자동회귀 모델을 능가할 수 있는가?
RQ4초해상도와 같은 다른 이미지 간 변환 작업으로의 일반화 능력은 어떠한가?
RQ5초해상도 품질 측면에서 인간 평가에서 이전 연구와 비교해 모델 성능은 어떠한가?

주요 결과

이미지 트랜스포머는 ImageNet에서 음의 로그우도 값 3.77을 기록하여 기존 최고 성능인 3.83을 초월한다.
가능도 측정치와 인간 평가 모두에서 이전 방법보다 뚜렷이 뛰어난 이미지 생성 품질을 확보한다.
큰 확대 비율의 초해상도 작업에서, 인간 관찰자가 이전 최고 성능 모델보다 세 배 더 자주 결과를 진짜 이미지로 오인한다.
국소적 주의 메커니즘이 이전에 전면 자기주의를 사용할 수 없었던 더 큰 이미지에 대한 학습을 가능하게 한다.
모델은 각 레이어당 큰 유효 수신장을 유지하여 장거리 의존성을 효과적으로 모델링할 수 있다.
인간 평가 결과, 생성된 초해상도 이미지가 기존 모델보다 더 현실적이며 더 잘 구분되지 않는다는 것이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.