[논문 리뷰] SPG-Net: Segmentation Prediction and Guidance Network for Image Inpainting
SPG-Net은 이미지 인페인팅을 분할 예측(SP-Net)과 분할 가이드 인페인팅(SG-Net)으로 분해하여 세분화 맵을 활용해 경계를 더 선명하게 만들고 인터랙티브한 다중 모달 결과를 가능하게 한다. 공개 데이터셋에서 기존 방법보다 우수하며 사용자 주도 편집을 지원한다.
In this paper, we focus on image inpainting task, aiming at recovering the missing area of an incomplete image given the context information. Recent development in deep generative models enables an efficient end-to-end framework for image synthesis and inpainting tasks, but existing methods based on generative models don't exploit the segmentation information to constrain the object shapes, which usually lead to blurry results on the boundary. To tackle this problem, we propose to introduce the semantic segmentation information, which disentangles the inter-class difference and intra-class variation for image inpainting. This leads to much clearer recovered boundary between semantically different regions and better texture within semantically consistent segments. Our model factorizes the image inpainting process into segmentation prediction (SP-Net) and segmentation guidance (SG-Net) as two steps, which predict the segmentation labels in the missing area first, and then generate segmentation guided inpainting results. Experiments on multiple public datasets show that our approach outperforms existing methods in optimizing the image inpainting quality, and the interactive segmentation guidance provides possibilities for multi-modal predictions of image inpainting.
연구 동기 및 목표
- 의미적 분할을 이용해 인페인팅에서 물체 형태를 제약하고 경계 흐림을 줄이려는 동기 부여.
- 구멍 내에서 분할을 먼저 예측하고 그 분할을 사용해 이미지 합성을 안내하는 두 단계 프레임워크를 제안.
- 세그먼트 마스크의 인터랙티브 편집을 가능하게 하여 다중 모달 인페인팅 결과를 생성.
- 공개 데이터셋에서 인페인팅 품질의 향상을 시演하고 ablation 연구를 통해 기여를 분석한다.
제안 방법
- 인페인팅 파이프라인을 Segmentation Prediction Network (SP-Net)와 Segmentation Guidance Network (SG-Net)로 분리한다.
- SP-Net은 불완전한 이미지 I0와 불완전한 분할 S0를 입력으로 받아 누락된 분할 SR을 예측하며 4-down/4-up FCN 유사 생성기와 잔차 블록을 사용하고, 다중 스케일 GAN과 현실감을 위한 지각 손실을 사용한다.
- SG-Net은 I0와 예측된 전체 분할 S를 받아 최종 인페인팅 이미지 I를 생성하며 SP-Net과 유사한 아키텍처를 가지되 tanh 출력과 AlexNet 기반의 추가 지각 손실이 있다.
- 적대적 손실은 글로벌 및 로컬 리얼리즘을 강제하기 위해 세 가지 다중 스케일 PatchGAN 구분기를 사용하고, 지각 손실은 생성된 데이터와 실제 데이터 간 중간 표현을 맞추되 마스크 가중치를 적용한다.
- SG-Net에 대한 AlexNet 기반의 지각 손실은 학습된 층 가중치를 사용해 로컬 홀 패치에 초점을 맞춰 지각적 유사성을 개선한다.
실험 결과
연구 질문
- RQ1세그먼트 가이드가 비가이드 방법에 비해 인페인팅 이미지의 리얼리즘과 경계 선명도를 높일 수 있는가?
- RQ2누락된 구멍에서 분할 예측이 합리적인 물체 배치와 텍스처를 제약하는 데 도움이 되는가?
- RQ3세그먼트 맵의 인터랙티브 편집이 다중 모달 인페인팅 결과를 생성할 수 있는가?
- RQ4PatchMatch, GL, GFC에 비해 표준 인페인팅 벤치마크에서 SPG-Net의 성능은 어떠한가?
주요 결과
- SPG-Net과 SG-Net이 함께 작동할 때 비분할 가이드 방법보다 더 선명한 경계와 의미적으로 일치하는 영역 내 텍스처를 더 잘 생성한다.
- Cityscapes에서 본 방법은 품질 지표 가운데 세 가지(ell_1, ell_2, SSIM, PSNR 중 세 가지)에 대해 PatchMatch와 GL을 능가한다.
- 표 1은 PatchMatch의 경우 ell_1=641.3, ell_2=169.3, SSIM=0.9419, PSNR=30.34; GL의 경우 ell_1=598.0, ell_2=94.78, SSIM=0.9576, PSNR=33.57; Our의 경우 ell_1=392.4, ell_2=98.95, SSIM=0.9591, PSNR=34.26을 보인다.
- Cityscapes에 대한 사용자 연구에서 600개의 비교 중 70.8%의 선호를 보고했다.
- 기여 중 잔해 효과를 확인하기 위해 SG-Net 단독( SP-Net 없이)으로 수행한 ablation은 경계가 더 흐려짐을 보여 주며 세그먼트 가이드 예측의 이점을 강조한다.
- 인터랙티브 세그먼트 편집은 홀 콘텐츠를 대체 분할 맵으로 안내해 다중 모달 인페인팅 출력을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.