[논문 리뷰] RGI: robust GAN-inversion for mask-free image inpainting and unsupervised pixel-wise anomaly detection
RGI는 전처리 마스크 없이도 손상된 영역을 식별하고 깨끗한 이미지를 복원하는 강건한 GAN-역적 프레임워크를 제공하며 이론적 보장과 GAN-실제 이미지 매니폴드 간의 차이를 축소하는 생성기 미세조정이 포함된 Relaxed 버전(R-RGI)을 제시합니다.
Generative adversarial networks (GANs), trained on a large-scale image dataset, can be a good approximator of the natural image manifold. GAN-inversion, using a pre-trained generator as a deep generative prior, is a promising tool for image restoration under corruptions. However, the performance of GAN-inversion can be limited by a lack of robustness to unknown gross corruptions, i.e., the restored image might easily deviate from the ground truth. In this paper, we propose a Robust GAN-inversion (RGI) method with a provable robustness guarantee to achieve image restoration under unknown extit{gross} corruptions, where a small fraction of pixels are completely corrupted. Under mild assumptions, we show that the restored image and the identified corrupted region mask converge asymptotically to the ground truth. Moreover, we extend RGI to Relaxed-RGI (R-RGI) for generator fine-tuning to mitigate the gap between the GAN learned manifold and the true image manifold while avoiding trivial overfitting to the corrupted input image, which further improves the image restoration and corrupted region mask identification performance. The proposed RGI/R-RGI method unifies two important applications with state-of-the-art (SOTA) performance: (i) mask-free semantic inpainting, where the corruptions are unknown missing regions, the restored background can be used to restore the missing content; (ii) unsupervised pixel-wise anomaly detection, where the corruptions are unknown anomalous regions, the retrieved mask can be used as the anomalous region's segmentation mask.
연구 동기 및 목표
- 표준 GAN-인버전에 대한 unknown gross corruptions 하의 강건성 격차를 동기부여한다.
- 사전 마스크 없이 깨끗한 이미지 복원 및 손상 영역 식별을 위해 RGI를 제안한다.
- 복원된 이미지와 마스크의 점근적 수렴에 대한 이론적 보장을 제공한다.
- 생성기를 미세조정하여 GAN 매니폴드 간의 간극을 줄이기 위해 R-RGI로 확장한다.
- 마스크 없는 시맨틱 인페인팅과 픽셀-단위 이상 탐지에서의 최첨단 성능을 보여준다.
제안 방법
- 잠재 코드 z와 희소 마스크 M에 대한 공동 최적화를 L_rec((1−M)⊙x, (1−M)⊙G(z)) + λ||M||_1로 형식화한다.
- λ가 0으로 감소할 때 ẑ(λ) → z*가 되는 점근적 수렴을 보인다(정리 1).
- λ가 0으로 감소할 때 M̂(λ) → M*가 되는 점근적 마스크 수렴을 보인다(정리 2).
- GAN-매니폴드 간극을 줄이기 위해 θ 생성기 파라미터도 최적화하는 Relaxed-RGI(R-RGI)를 도입한다(식(4)).
- 강건 통계 및 강건 ML(M-추정기, Winsorizing)과의 연결 및 기존의 GAN-인버전 접근법과의 관련성에 대해 논의한다.
- 마스크 없는 시맨틱 인페인팅과 단일 프레임에서의 이상 탐지를 하나의 통합 프레임워크에서 시연한다.
실험 결과
연구 질문
- RQ1RGI가 사전 구성 마스크 없이 깨끗한 이미지를 복원하고 손상 영역을 식별할 수 있는가?
- RQ2재 수렴이 약한 가정과 적절한 λ 하에서 복원된 이미지와 마스크가 실제 지상참조에 수렴하는가?
- RQ3R-RGI의 relaxed가 GAN 근사 간극을 완화하여 복원 품질을 더 개선하는가?
- RQ4메스크-없이 시맨틱 인페인팅과 픽셀-단위 이상 탐지를 최첨단 성능으로 하나의 프레임워크로 통합할 수 있는가?
- RQ5알려지지 않은 오염 하에서 최적화된 마스크가 실제 손상 영역과 연결되는 이론적 보장은 무엇인가?
주요 결과
| 데이터셋 | 케이스 | 지표 | 방법 | Yeh et al. w/o mask | Yeh et al. w/ mask | RGI | Pan et al. w/ mask | R-RGI |
|---|---|---|---|---|---|---|---|---|
| CelebA | Case (i) PSNR | PSNR ↑ | [Yeh w/o mask] | 11.50 | 20.82 | 19.70 | 21.74 | 20.05 |
| CelebA | Case (i) SSIM | SSIM ↑ | [Yeh w/o mask] | 0.358 | 0.492 | 0.451 | 0.570 | 0.509 |
| CelebA | Case (ii) PSNR | PSNR ↑ | [Yeh w/o mask] | 19.64 | 22.63 | 21.52 | 27.63 | 23.73 |
| CelebA | Case (ii) SSIM | SSIM ↑ | [Yeh w/o mask] | 0.440 | 0.536 | 0.490 | 0.766 | 0.655 |
| Cars | Case (i) PSNR | PSNR ↑ | [Yeh w/o mask] | 16.57 | 17.50 | 16.89 | 20.98 | 19.31 |
| Cars | Case (i) SSIM | SSIM ↑ | [Yeh w/o mask] | 0.359 | 0.377 | 0.363 | 0.636 | 0.618 |
| Cars | Case (ii) PSNR | PSNR ↑ | [Yeh w/o mask] | 17.36 | 17.71 | 17.52 | 21.61 | 21.18 |
| Cars | Case (ii) SSIM | SSIM ↑ | [Yeh w/o mask] | 0.361 | 0.382 | 0.363 | 0.650 | 0.588 |
| LSUN bedroom | Case (i) PSNR | PSNR ↑ | [Yeh w/o mask] | 16.15 | 19.27 | 17.67 | 21.36 | 18.72 |
| LSUN bedroom | Case (i) SSIM | SSIM ↑ | [Yeh w/o mask] | 0.405 | 0.428 | 0.416 | 0.587 | 0.567 |
| LSUN bedroom | Case (ii) PSNR | PSNR ↑ | [Yeh w/o mask] | 19.26 | 19.66 | 19.72 | 22.30 | 22.29 |
| LSUN bedroom | Case (ii) SSIM | SSIM ↑ | [Yeh w/o mask] | 0.419 | 0.433 | 0.420 | 0.599 | 0.557 |
- RGI는 알려지지 않은 크고 훼손에 대해 강건성을 달성하며 λ→0일 때 복원된 이미지가 기저 배경으로 점근 수렴한다.
- λ가 작은 극한에서 식별된 마스크가 실제 손상 영역 마스크로 수렴하여 온건한 조건에서 정확한 마스크 복구를 가능하게 한다.
- R-RGI는 생성기를 미세 조정해 학습된 매니폴드와 실제 이미지 매니폴드 간의 간극을 줄이고 성능을 높여 복원을 더욱 향상시킨다.
- 마스크가 있는 기준에 비해 마스크 없는 시맨틱 인페인팅에서도 RGI가 비구성 마스크에 대해 비슷하거나 더 나은 성능을 내며, R-RGI는 마스크-조정 방법의 성능에 근접한다.
- 비감독 픽셀-단위 이상 탐지에서 RGI와 특히 R-RGI는 Dice 점수와 SOTA 기준에 비해 경쟁력 있는 AUROC를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.