[논문 리뷰] Adversarial Scene Editing: Automatic Object Removal from Weak Supervision
약한 감독으로 학습된 일반 씬 이미지용 상호작용 없이 두 단계로 객체를 제거하는 모델로, 마스크 생성과 인페인팅을 GAN 프레임워크 내에서 모양 선험을 이용해 ground-truth 타깃 없이 객체를 제거한다.
While great progress has been made recently in automatic image manipulation, it has been limited to object centric images like faces or structured scene datasets. In this work, we take a step towards general scene-level image editing by developing an automatic interaction-free object removal model. Our model learns to find and remove objects from general scene images using image-level labels and unpaired data in a generative adversarial network (GAN) framework. We achieve this with two key contributions: a two-stage editor architecture consisting of a mask generator and image in-painter that co-operate to remove objects, and a novel GAN based prior for the mask generator that allows us to flexibly incorporate knowledge about object shapes. We experimentally show on two datasets that our method effectively removes a wide variety of objects using weak supervision only
연구 동기 및 목표
- 경계 상자나 마스크 없이 일반 장면 이미지에서 자동 객체 제거를 가능하게 한다.
- 이미지 수준 라벨과 매칭되지 않는 데이터를 활용하여 GAN을 통해 제거를 학습한다.
- 두 단계 구조에서 마스크 생성기와 인페인터를 결합해 비정상적 해의 발생을 방지한다.
- 일관된 마스크를 유도하기 위해 유연한 마스크 선험(직사각형 또는 매칭되지 않는 분할 마스크)을 Wasserstein GAN을 통해 적용한다.
- COCO 및 로고 데이터셋에서 완전 감독 기준선에 상응하는 제거 성능을 시연한다.
제안 방법
- 두 단계 편집기(G_M)와 이미지 인페인터 G_I가 협력해 객체를 제거한다.
- 마스크 생성기는 대상 객체 분류기를 속이는 데 학습되고, 인페인터는 마스킹된 영역을 채워 현실적인 출력을 생산하도록 학습된다.
- GAN 기반의 선험(prior) 디스크리미네이터 D_M과 선험 손실 L_prior를 통해 마스크 모양을 강제한다.
- 랜덤 패치에 대한 재구성 손실, 로컬 실제/가짜 손실, 텍스트(tv, 스타일 등)와 같은 이미지 품질 손실로 일관된 질감을 생산하도록 인페인팅을 학습한다.
- 비정상적 해를 방지하고 공동적 적응을 가능하게 하기 위해 G_M과 G_I의 교대 최적화를 수행한다.
- 재구성과 인지적 손실이 인페인터가 대상 객체를 제거하면서도 이미지 충실도를 유지하도록 안내한다.]
실험 결과
연구 질문
- RQ1정밀한 마스크나 ground-truth 타깃 이미지 없이 약한 감독으로 일반 장면 수준의 객체 제거를 학습할 수 있는가?
- RQ2복잡한 장면에서 두 단계 편집기(마스크 생성 + 인페인팅)가 단일 단계 생성 방식보다 제거 품질을 향상시키는가?
- RQ3마스크 선험(기하학적 모양 또는 매칭되지 않는 분할 마스크)이 제거 마스크의 일관성과 정확도를 어떻게 개선하는가?
- RQ4약한 감독 하의 제거가 Mask-RCNN과 같은 완전 감독 방법과 표준 데이터셋에서 경쟁하는가?
- RQ5이 프레임워크가 비객체 엔터티(예: 로고) 제거에 약한 감독으로 일반화될 수 있는가?
주요 결과
- 두 단계 편집기(마스크 생성기 + 인페인터)는 비정상적 해를 줄이고 COCO에서 완전 감독 세그멘터와 비교할 만큼의 제거를 달성한다.
- Wasserstein 거리(Wasserstein distance)를 통해 유연한 마스크 선험을 적용하면 마스크의 일관성이 향상되고 오탐을 줄이며 이미지 품질을 유지한다.
- 매칭되지 않는 분할 마스크나 간단한 박스 선험을 사용하면 선행 없는 설정보다 더 정확한 마스크와 더 나은 이미지 품질을 얻는다.
- 이 방법은 특정 설정에서 GT/Mask-RCNN 마스크를 이용한 완전 감독 기준선보다 제거에 대해 우수하며, 확장된 dilated Mask-RCNN 마스크에서는 비슷한 성능에 접근한다.
- 이 접근법은 이미지 수준 라벨만으로 로고 제거에 일반화되어 객체 제거를 넘어서는 넓은 적용 가능성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.