QUICK REVIEW

[논문 리뷰] Semantic Segmentation using Adversarial Networks

Pauline Luc, Camille Couprie|arXiv (Cornell University)|2016. 11. 25.

Anomaly Detection Techniques and Applications인용 수 485

한 줄 요약

이 논문은 semantic segmentation을 위한 adversarial training을 도입하여 ground-truth 라벨 맵과 예측된 라벨 맵을 구분하는 adversarial 네트워크와 함께 segmentation CNN을 공동으로 학습시킴으로써 Stanford Background와 PASCAL VOC 2012에서 정확성을 개선한다.

ABSTRACT

Adversarial training has been shown to produce state of the art results for generative image modeling. In this paper we propose an adversarial training approach to train semantic segmentation models. We train a convolutional semantic segmentation network along with an adversarial network that discriminates segmentation maps coming either from the ground truth or from the segmentation network. The motivation for our approach is that it can detect and correct higher-order inconsistencies between ground truth segmentation maps and the ones produced by the segmentation net. Our experiments show that our adversarial training approach leads to improved accuracy on the Stanford Background and PASCAL VOC 2012 datasets.

연구 동기 및 목표

per-pixel 손실을 넘어서 segmentation 맵의 높은 차원의 일관성을 강제하기 위해 adversarial training의 사용을 동기화한다.
표준 cross-entropy 손실과 adversarial 손실을 결합하여 segmentation 모델을 학습시키는 프레임워크를 개발한다.
대안적 접근법이 벤치마크 데이터셋에서 segmentation 정확성을 개선하는지 보여준다.

제안 방법

다중 클래스 cross-entropy를 per-pixel 라벨에 대해 사용하고 예측된 라벨 맵이 ground-truth인지 segmentation-생성인지 판단하는 adversarial 손실을 더하는 하이브리드 손실을 사용한다.
segmentation CNN을 학습시켜 adversarial 네트워크가 예측 맵과 ground-truth 맵을 구분하는 것을 더 어렵게 만드는 방향으로 최적화한다.
Adversarial 모델은 라벨 맵 자체만으로도 또는 RGB 입력으로 조건화된 라벨 맵을 입력으로 받을 수 있는 CNN이며, 아키텍처에는 LargeFOV와 SmallFOV 변형이 포함된다.
대립적 입력 인코딩(Basic, Product, Scaling)과 두 시야(Field-of-view) 설정(LargeFOV, SmallFOV)으로 실험한다.
학습을 안정화시키기 위해 segmentation 네트워크와 adversarial 네트워크를 순차적으로 업데이트하는 대안적 학습 스킴을 채용한다.

실험 결과

연구 질문

RQ1대립적 학습이 벤치마크 데이터셋에서 표준 cross-entropy 학습에 비해 semantic segmentation 정확성을 향상시키는가?
RQ2학습된 adversarial 손실이 픽셀 단위 손실을 넘는 고차 의존성 및 공간적 연속성을 포착할 수 있는가?
RQ3최적의 성능-복잡도 트레이드오프를 내는 adversarial 네트워크의 아키텍처와 입력 인코딩은 무엇인가?
RQ4대립적 학습이 segmentation 출력의 과적합 및 경계 구분에 어떤 영향을 미치는가?

주요 결과

Adversarial training은 cross-entropy 기준선과 비교하여 Stanford Background와 PASCAL VOC 2012에서 평균 IoU 및 관련 지표에 일관된 이점을 제공한다.
실험에 사용된 변형들 중 LargeFOV adversarial 아키텍처가 가장 효과적인 개선을 제공한다.
다른 adversarial 입력 인코딩(Basic, Product, Scaling)은 비슷한 성능을 달성하며, Scaling은 다양한 설정에서 견고한 결과를 제공한다.
Adversarial training은 과적합을 줄이고 segmentation 맵의 공간적 연속성과 경계 선명도를 향상시킨다.
PASCAL VOC 2012에서 선택된 adversarial 설정은 검증 데이터에서 바닥선 대비 작지만 일관된 이점을 보이고 테스트 세트에서도 경쟁력 있는 결과를 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.