QUICK REVIEW

[논문 리뷰] Semi and Weakly Supervised Semantic Segmentation Using Generative Adversarial Network

Nasim Souly, Concetto Spampinato|arXiv (Cornell University)|2017. 03. 28.

Generative Adversarial Networks and Image Synthesis참고 문헌 25인용 수 53

한 줄 요약

본 논문은 Generative Adversarial Network를 사용한 반지도 및 약지도(weakly supervised) 방법으로 다클래스 픽셀 분류기(판별자)를 규칙화하기 위해 생성기가 가짜 이미지를 생성하는 반지도 및 약지도 세맨틱 분할을 개발한다. 약한 라벨로 Conditioning을 적용하면 여러 데이터셋에서 생성 샘플의 품질과 분할 성능이 더욱 향상된다.

ABSTRACT

Semantic segmentation has been a long standing challenging task in computer vision. It aims at assigning a label to each image pixel and needs significant number of pixellevel annotated data, which is often unavailable. To address this lack, in this paper, we leverage, on one hand, massive amount of available unlabeled or weakly labeled data, and on the other hand, non-real images created through Generative Adversarial Networks. In particular, we propose a semi-supervised framework ,based on Generative Adversarial Networks (GANs), which consists of a generator network to provide extra training examples to a multi-class classifier, acting as discriminator in the GAN framework, that assigns sample a label y from the K possible classes or marks it as a fake sample (extra class). The underlying idea is that adding large fake visual data forces real samples to be close in the feature space, enabling a bottom-up clustering process, which, in turn, improves multiclass pixel classification. To ensure higher quality of generated images for GANs with consequent improved pixel classification, we extend the above framework by adding weakly annotated data, i.e., we provide class level information to the generator. We tested our approaches on several challenging benchmarking visual datasets, i.e. PASCAL, SiftFLow, Stanford and CamVid, achieving competitive performance also compared to state-of-the-art semantic segmentation method

연구 동기 및 목표

비지도 데이터를 활용하여 반지도 설정에서 깊은 세분화 모델을 규칙화한다.
GANs를 활용하여 판별자가 분할을 위한 픽셀 단위 다중 클래스 분류를 수행하도록 하는 것을 탐구한다.
이미지 수준 라벨을 조건으로 사용해 샘플 품질과 분할 정확도를 향상시키는 약지도 학습 확장을 통해 GAN 학습을 강화한다.
제안된 프레임워크를 여러 도전적인 데이터셋에서 평가하고 최첨단 방법들과 비교한다.

제안 방법

표준 GAN 판별기를 K+1 클래스 신뢰도( K개의 실제 클래스와 가짜 클래스)로 출력하는 완전 컨볼루션 다중 클래스 픽셀 분류기로 대체한다.
생성기가 판별자가 픽셀에 실제 클래스 레이블을 할당하도록 하는 이미지를 생성하도록 학습시키는 동시에 학습 데이터와 유사한 실제 샘플을 생성한다.
판별기에 대해 라벨링 데이터, 비라벨링 데이터, 생성된 데이터의 세 가지 데이터 스트림을 사용하고 픽셀 단위 교차 엔트로피 손실 및 가짜 데이터 항을 적용한다.
실제 데이터에 대해 log(D(x))를 극대화하고, 라벨링 데이터에 대해 교차 엔트로피를 최소화하며, 가짜 데이터에 대해 log(1−D(G(z)))를 최소화하는 반지도 손실을 판별기에 대해 구성한다.
이미지 수준 라벨 l을 G와 D의 조건으로 사용하여 생성된 이미지에서 라벨의 존재를 강제하고 이미지 수준 감독으로 판별기를 안내하는 조건부 GAN을 통한 약지도 확장을 제공한다.
약지도에서 원-핫 클래스 벡터를 생성기 입력에 연결하여 클래스 조건 이미지들을 생성하고, 손실을 이미지 수준 라벨 일관성도 포함하도록 조정한다.

실험 결과

연구 질문

RQ1비지도 데이터와 GAN으로부터의 합성 샘플이 완전 지도 학습과 비교해 픽셀 수준의 시맨틱 세분화 성능을 향상시키는가?
RQ2GAN을 약 이미지 수준 라벨로 조건화하는 것이 생성 샘플의 품질과 다운스트림 분할 성능을 더 향상시키는가?
RQ3표준 벤치마크인 VOC 2012, SiftFlow, StanfordBG, CamVid에서 반지도 및 약지도 기반 GAN 프레임워크가 최첨단 방법들과 비교해 어떤 성능을 보이는가?

주요 결과

VOC 2012 val에서 반지도 학습은 픽셀 정확도 90.5, 평균 정확도 80.7, 평균 IU 64.1로, 완전히 지도된 기준선 89.9/69.2/59.5를 능가한다.
VOC 2012 val에서 30% 완전 라벨 데이터 사용 시 반지도는 평균 IU를 42.2로, 픽셀 정확도를 83.6으로 개선하고, 약지도는 평균 IU 44.6, 픽셀 정확도 84.6에 도달한다.
VOC 2012 val에서 약지도는 여러 최첨단 반지도 방법들보다 평균 IU 및 평균 정확도에서 우수하며, 65.8 평균 IU와 91.3 픽셀 정확도이다.
SiftFlow에서 반지도는 평균 IU를 35.1로, 픽셀 정확도를 86.3으로 개선하여 완전 지도 기준선 83.4/34.4를 각각 상회한다.
StanfordBG와 CamVid 전반에 걸쳐 반지도와 약지도 GAN은 완전 지도 기준선 및 경쟁 방법들을 능가하며 평균 정확도와 평균 IU에서 뚜렷한 증가를 보인다.
정성적 결과는 생성된 이미지가 데이터셋 특유의 구조(예: 아래쪽의 도로, 위쪽의 하늘)를 포착해 판별기가 의미 있는 픽셀 수준 특징을 학습하도록 돕는다는 것을 보여 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.