QUICK REVIEW

[논문 리뷰] Unsupervised Object Segmentation by Redrawing

Mickaël Chen, Thierry Artières|arXiv (Cornell University)|2019. 05. 27.

Advanced Neural Network Applications참고 문헌 62인용 수 61

한 줄 요약

ReDO는 GAN 판별기에 의해 가이드되는 생성 과정을 통해 제시된 위치에서 객체를 다시 그릴 수 있도록 하여 라벨 없이 이미지에서 객체를 분할하는 방법을 학습합니다. 제한된 라벨 데이터와 비교했을 때 감독 기반 baselines에 비해 경쟁력 있는 분할 마스크를 제공합니다.

ABSTRACT

Object segmentation is a crucial problem that is usually solved by using supervised learning approaches over very large datasets composed of both images and corresponding object masks. Since the masks have to be provided at pixel level, building such a dataset for any new domain can be very time-consuming. We present ReDO, a new model able to extract objects from images without any annotation in an unsupervised way. It relies on the idea that it should be possible to change the textures or colors of the objects without changing the overall distribution of the dataset. Following this assumption, our approach is based on an adversarial architecture where the generator is guided by an input sample: given an image, it extracts the object mask, then redraws a new object at the same location. The generator is controlled by a discriminator that ensures that the distribution of generated images is aligned to the original one. We experiment with this method on different datasets and demonstrate the good quality of extracted masks.

연구 동기 및 목표

현장을 서로 교환해도 현실감을 해치지 않는 독립적인 지역들로 모델링함으로써 비지도 분할을 고무한다.
객체를 재도화하여 현실적인 이미지를 재구성하도록 마스크 추출기와 영역별 생성기가 학습하는 적대적 프레임워크인 ReDO를 제안한다.
비어 있거나 모든 픽셀이 하나의 영역에 속하는 등 자명한 해를 피하고, 그려진 영역의 정보를 보존하도록 제약을 부여한다.

제안 방법

마스크 M^k로 영역을 구성하고, 객체 픽셀 V^k를 독립적으로 그린 다음, 최종 이미지 I를 조합하는 세 단계의 생성 과정을 정의한다.
실제 데이터 분포에 대한 충실도를 강제하는 판별기 D를 사용한 GAN 목적함수로 F(마스크 추출기)와 G_k(영역 생성기)를 학습한다.
학습 중에 자명한 해를 방지하고 의미 있는 분할을 강제하기 위해 재도화는 한 번에 하나의 영역씩 수행된다.
출력에서 해당 영역과 연관된 잠재 변수 z_i를 회복할 수 있도록 하여 정보 보존을 강제한다. InfoGAN 아이디어와 유사하게.
히지 GAN 손실과 적대적 학습 루프를 사용하여 결합 생성기 G_F와 D를 최적화한다.
아키텍처: PSPNet 유사 인코더와 피라미드 풀링을 기반으로 한 F; G_k와 D는 Spectral Normalization과 Self-Attention을 갖춘 SAGAN에서 영감을 얻었고; G_k에서 텍스처/색상을 인코딩하기 위한 조건부 배치 정규화.
학습 안정성: 하이퍼파라미터 튜닝과 가끔의 재시작으로 빈 마스크로의 붕괴 가능성을 관리한다.

실험 결과

연구 질문

RQ1완전한 비지도 학습이 객체 내용물을 교환하면서 분포를 해치지 않는 generative 프로세스를 모델링함으로써 의미 있는 객체 분할 마스크를 발견할 수 있는가?
RQ2마스크 추출기 F와 per-object 생성기 G_k가 객체를 재도화하여 재구성된 이미지가 실제 이미지와 구별되지 않도록 학습될 수 있는가?
RQ3자명한 해(예: 빈 마스크나 모든 픽셀을 하나의 영역에 포함)를 방지하고 그려진 영역에 대한 정보를 보존하기 위해 어떤 제약이 필요한가?
RQ4제한된 라벨 데이터로 감독 기반 baselines와 비교했을 때 ReDO는 실제 데이터셋(LFW, Flowers, CUB)에서 얼마나 잘 수행하며 다중 클래스/ unknown 객체를 다룰 수 있는가?
RQ5라벨 없이도 합성 데이터셋(예: Flowers+LFW)으로 일반화된 비지도 마스크가 가능한가?

주요 결과

데이터셋	학습 정확도	학습 IoU	테스트 정확도	테스트 IoU
LFW	-	-	0.917 b1 0.002	0.781 b1 0.005
CUB	0.840 b1 0.012	0.423 b1 0.023	0.845 b1 0.012	0.426 b1 0.025
Flowers*	0.886 b1 0.008	0.780 b1 0.012	0.879 b1 0.008	0.764 b1 0.012
Flowers+LFW	-	-	0.856	0.691

ReDO는 데이터셋 전반에 걸쳐 의미 있는 영역별 재도화를 가능하게 하는 비자명한 객체 마스크를 생성한다.
LFW에서 ReDO는 학습에 라벨을 사용하지 않고도 테스트 세트에서 0.917 정확도와 0.781 IoU를 달성한다.
CUB-200-2011에서 ReDO는 테스트 정확도 0.845, IoU 0.426를 달성하고, 학습 정확도 0.840, 학습 IoU 0.423를 기록한다.
Flowers에서 ReDO는 테스트 정확도 0.879, IoU 0.764(Flowers*), 학습 정확도 0.886, 학습 IoU 0.780를 달성한다.
Flowers+LFW를 합친 데이터셋에서 라벨 없이 0.856의 테스트 정확도와 0.691 IoU를 달성한다.
제한된 라벨 데이터를 가진 감독 기반 baselines와 비교할 때 비지도 모델은 비슷한 성능을 달성하며 LFW에서 약 50–60개의 라벨 예제로 학습된 감독 모델과 유사한 성능에 도달할 수 있다.
정성적 결과는 추론된 마스크가 객체와 유사한 영역과 정렬되고, 잠재 코드 z_i를 통해 재도화된 객체가 대상 질감/색상을 보존함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.