[논문 리뷰] Contextual Residual Aggregation for Ultra High-Resolution Image Inpainting
본 논문은 Contextual Residual Aggregation (CRA)을 도입하여 저해상도 채우기를 예측하고 맥락 패치의 고주파 잔차를 집계함으로써 초고해상도 이미지 인페인팅을 가능하게 하며, 경량의 빠른 모델로 8K 인페인팅을 달성한다.
Recently data-driven image inpainting methods have made inspiring progress, impacting fundamental image editing tasks such as object removal and damaged image repairing. These methods are more effective than classic approaches, however, due to memory limitations they can only handle low-resolution inputs, typically smaller than 1K. Meanwhile, the resolution of photos captured with mobile devices increases up to 8K. Naive up-sampling of the low-resolution inpainted result can merely yield a large yet blurry result. Whereas, adding a high-frequency residual image onto the large blurry image can generate a sharp result, rich in details and textures. Motivated by this, we propose a Contextual Residual Aggregation (CRA) mechanism that can produce high-frequency residuals for missing contents by weighted aggregating residuals from contextual patches, thus only requiring a low-resolution prediction from the network. Since convolutional layers of the neural network only need to operate on low-resolution inputs and outputs, the cost of memory and computing power is thus well suppressed. Moreover, the need for high-resolution training datasets is alleviated. In our experiments, we train the proposed model on small images with resolutions 512x512 and perform inference on high-resolution images, achieving compelling inpainting quality. Our model can inpaint images as large as 8K with considerable hole sizes, which is intractable with previous learning-based approaches. We further elaborate on the light-weight design of the network architecture, achieving real-time performance on 2K images on a GTX 1080 Ti GPU. Codes are available at: Atlas200dk/sample-imageinpainting-HiFill.
연구 동기 및 목표
- 메모리 제약 하에서 초고해상도 이미지(최대 8K) 인페인팅의 필요성을 제시한다.
- 손실 영역에 대해 선명하고 고주파 잔차를 생성할 수 있는 저해상도 예측 파이프라인을 개발한다.
- 효율적인 게이트드 컨볼루션과 다중 스케일 어텐션 전달을 갖춘 경량 네트워크 아키텍처를 제안한다.
- 주변 영역에서 고주파 디테일을 전달하기 위해 컨텍스트 기반 잔차 집계를 활용한다.
- 저해상도 데이터로의 학습이 품질을 유지하면서 고해상도 추론으로 일반화될 수 있음을 보여준다.
제안 방법
- 다운샘플링된 입력으로 저해상도 인페인팅 결과를 예측한 다음, 이를 대형 흐릿한 이미지로 업샘플링한다.
- 큰 흐릿한 이미지를 원본에서 빼서 고주파 잔차를 계산하고, 맥락 주의 점수로 잔차를 집계한다.
- Attention Computing Module (ACM)을 사용하여 구멍 내부 패치와 외부 패치 간의 패치 단위 코사인 유사도를 계산한다.
- Attention Transfer Module (ATM)을 사용하여 공유된 주의 점수를 가진 가중 평균으로 다중 특성 수준에서 구멍 내부 패치를 채운다.
- 맥락 패치들 간의 잔차를 집계하여 업샘플링된 흐림에 더했을 때 구멍 내부의 결과를 선명하게 만든다.
- 경량 게이트 컨볼루션(LWGC)을 채택하여 날씬하고 빠른 제너레이터를 구축하고, 두 단계 네트워크의 거친(coarse) 및 정교(refine) 단계로 구성한다.
- WGAN-GP 적대적 손실과 재구성 손실로 학습하되, 실제 구멍을 시뮬레이션하기 위해 무작위 불규칙 마스크를 사용한다.
실험 결과
연구 질문
- RQ1저해상도 예측과 잔차 집계를 통해 메모리 및 연산 요구를 줄이면서 초고해상도 인페인팅을 달성할 수 있는가?
- RQ22K–8K 해상도에서 품질과 속도 측면에서 컨텍스트 기반 잔차 집계가 이전의 주의 기반 및 패치 기반 인페인팅 방법과 어떻게 비교되는가?
- RQ3대형 구멍 인페인팅의 성능과 효율성을 가장 향상시키는 아키텍처 선택은 무엇인가 (LWGC, 다중 스케일 어텐션 전달)?
- RQ4512×512 데이터로 학습하는 것이 훨씬 큰 이미지에서 고품질 인페인팅을 수행하는 데 충분한가?
주요 결과
| Image Size | L1 | MS-SSIM | FID | IS | Time (ms) |
|---|---|---|---|---|---|
| 512×512 | 5.439 | 0.8840 | 4.898 | 17.72 | 25 |
| 1024×1024 | 5.439 | 0.8840 | 4.899 | 17.72 | 31 |
| 2048×2048 | 5.492 | 0.8840 | 4.893 | 17.85 | 37 |
| 4096×4096 | 5.503 | 0.8840 | 4.895 | 17.81 | 87.3 |
- CRA는 제한된 메모리와 연산 하에서 대형 구멍(최대 25%)까지 8K 인페인팅을 가능하게 한다.
- 제안된 모델은 GTX 1080 Ti에서 2K 이미지에 대해 실시간 성능을 달성한다.
- 이 방법은 Places2에서 강력한 양적 결과를 제공하며, 테스트된 크기에서 가장 낮은 L1과 경쟁력 있는 MS-SSIM 및 FID를 보인다.
- 공유된 주의 점수 및 다중 스케일 주의 전달을 통한 CRA는 품질을 유지하면서 매개변수와 계산을 줄인다.
- LWGC 변형(LWGC sc 및 LWGC pw)은 품질 손실을 최소화하면서 실질적인 효율성 향상을 제공한다.
- 다른 학습 기반 방법과 비교할 때 CRA가 더 빠르고 시각적 품질이 더 좋거나 비슷하며, 특히 고해상도 입력에서 더 뛰어나다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.