QUICK REVIEW

[논문 리뷰] Adversarial Learning for Semi-Supervised Semantic Segmentation

Wei-Chih Hung, Yi‐Hsuan Tsai|arXiv (Cornell University)|2018. 02. 22.

Advanced Neural Network Applications참고 문헌 26인용 수 377

한 줄 요약

이 논문은 GAN 프레임워크 내에서 완전 합성곱 판별기를 도입하여 예측 확률 맵을 실제 맵과 정렬하고 비라벨 데이터의 자기학습 감독 신호를 활용함으로써 준지도 의미 분할을 개선하고 VOC 2012와 Cityscapes에서 향상을 달성한다.

ABSTRACT

We propose a method for semi-supervised semantic segmentation using an adversarial network. While most existing discriminators are trained to classify input images as real or fake on the image level, we design a discriminator in a fully convolutional manner to differentiate the predicted probability maps from the ground truth segmentation distribution with the consideration of the spatial resolution. We show that the proposed discriminator can be used to improve semantic segmentation accuracy by coupling the adversarial loss with the standard cross entropy loss of the proposed model. In addition, the fully convolutional discriminator enables semi-supervised learning through discovering the trustworthy regions in predicted results of unlabeled images, thereby providing additional supervisory signals. In contrast to existing methods that utilize weakly-labeled images, our method leverages unlabeled images to enhance the segmentation model. Experimental results on the PASCAL VOC 2012 and Cityscapes datasets demonstrate the effectiveness of the proposed algorithm.

연구 동기 및 목표

주석 작업 부담을 줄이고 비라벨 데이터를 활용하여 의미 분할의 주석 부담 감소를 동기화한다.
완전 합성곱 판별기로 가이던스받는 세분화 네트워크(생성기)를 제안한다.
판별기 출력으로 신뢰할 수 있는 영역을 도출해 비라벨 데이터를 감독함으로써 준지도 학습을 가능하게 한다.
테스트 시 후처리를 제거하기 위해 적대적 손실을 엔드-투-엔드 학습에 통합한다.

제안 방법

H x W x C 확률 맵을 생성하는 세분화 네트워크(ResNet-101이 포함된 DeepLab-v2)를 사용한다.
확률 맵을 입력으로 받아 ground-truth 대 세분화 소스 여부를 나타내는 H x W x 1의 공간 신뢰도 맵을 출력하는 완전 합성곱 판별기 D를 도입한다.
땅-트루 맵과 세분화 출력 간 구별을 위해 공간 교차 엔트로피로 D를 학습시킨다.
다중 작업 손실을 사용하여 S를 학습: L_seg = L_ce + lambda_adv L_adv + lambda_semi L_semi.
L_adv는 S가 D를 속일 수 있는 맵을 생성하도록 유도한다( D(S(X))가 ground-truth로 분류되도록 최대화).
비라벨 데이터에 대해 D를 통해 신뢰도 맵을 계산하고 자기 학습 타깃을 사용하는 마스크된 교차 엔트로피 손실 L_semi를 적용한다; 임계값 T_semi가 신뢰 가능한 영역을 선택한다.

실험 결과

연구 질문

RQ1픽셀 단위 확률 맵에서 작동하는 적대적 판별기가 추론 비용을 증가시키지 않으면서 분할 품질을 향상시킬 수 있는가?
RQ2판별기에서 도출된 신뢰도 맵과 자체 학습 감독으로 비라벨 이미지가 분할 성능에 기여할 수 있는가?
RQ3적대적 신호를 이용한 준지도 학습이 표준 데이터셋에서 완전 지도 기반과 비교해 어떤 차이를 보이는가?
RQ4판별기 아키텍처(완전 합성곱)와 하이퍼파라미터가 준지도 이익에 어떤 영향을 미치는가?

주요 결과

대상 데이터 양이 달라도 VOC 2012에서 적대적 손실이 기준 대비 일관된 이득을 제공한다(1/8에서 전체까지).
L_adv를 도입하면 1.6%에서 2.8%의 개선이 발생하고 L_semi와 결합하면 VOC 2012에서 3.5%에서 4.0%의 개선이 추가된다.
Cityscapes에서 L_adv는 0.5%에서 1.9%의 이득을 제공하고 L_semi와 결합하면 1.6%에서 3.3%의 개선이 발생한다.
완전 합성곱 판별기가 필수적이며(FCD가 아닌 구성은 VOC에서 약 1%, 전체 비교에서 1.5% 정도 열세였다).
준지도 학습은 판별기 유도 신뢰도 맵으로 훈련 신호를 마스킹하는 방식에 의존하며, T_semi가 [0.1, 0.3] 인 경우에 효과적이다.
기존의 이전 적대적 접근들과 비교할 때, 제안 방법은 VOC 2012에서 준지도 설정 하의 평균 IU가 더 높게 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.