QUICK REVIEW

[논문 리뷰] Constructing Self-motivated Pyramid Curriculums for Cross-Domain Semantic Segmentation: A Non-Adversarial Approach

Qing Lian, Fengmao Lv|arXiv (Cornell University)|2019. 08. 26.

Domain Adaptation and Few-Shot Learning참고 문헌 41인용 수 41

한 줄 요약

PyCDA는 자가 동기화된 피라미드 커리큘럼을 통해 의미 분할의 비지도 도메인 적응을 수행하며, 자체 학습 및 커리큘럼 개념을 결합해 추가 판별기가 없는 적대적 방법(adversarial) 대비 우수한 성능을 보여준다.

ABSTRACT

We propose a new approach, called self-motivated pyramid curriculum domain adaptation (PyCDA), to facilitate the adaptation of semantic segmentation neural networks from synthetic source domains to real target domains. Our approach draws on an insight connecting two existing works: curriculum domain adaptation and self-training. Inspired by the former, PyCDA constructs a pyramid curriculum which contains various properties about the target domain. Those properties are mainly about the desired label distributions over the target domain images, image regions, and pixels. By enforcing the segmentation neural network to observe those properties, we can improve the network's generalization capability to the target domain. Motivated by the self-training, we infer this pyramid of properties by resorting to the semantic segmentation network itself. Unlike prior work, we do not need to maintain any additional models (e.g., logistic regression or discriminator networks) or to solve minmax problems which are often difficult to optimize. We report state-of-the-art results for the adaptation from both GTAV and SYNTHIA to Cityscapes, two popular settings in unsupervised domain adaptation for semantic segmentation.

연구 동기 및 목표

Synthetic에서 real 이미지로 전이할 때 교차 도메인 의미 분할 개선을 동기부여한다.
추가 모델 없이 타겟 도메인 특성을 활용하는 학습 프레임워크를 개발한다.
네트워크 자체에서 파생된 타겟 도메인 이미지 영역과 픽셀 기반의 피라미드 커리큘럼을 도입한다.
경쟁력 있는 성능을 유지하면서 적대적 최소-최대 최적화를 제거한다.

제안 방법

각 타깃 이미지에 대해 피라미드 커리큘럼 구성(상단 전체 이미지, 중간 픽셀 사각형, 하단 픽셀).
자신 학습 방식으로 분할 네트워크 자체에서 타깃 도메인 속성(레이블 분포)을 추론한다.
비용이 많이 드는 초-초분할(superpixels)을 효율성을 위해 작고 겹치는 4x4 또는 8x8 픽셀 사각형으로 대체한다.
타깃 이미지 라벨 분포와 가짜 라벨에 대해 교차 엔트로피 손실을 사용하여 네트워크를 업데이트하고 추가 판별기를 피한다.
타깃 이미지 수준 분포를 영역- 및 픽셀 수준의 가짜-라벨 감독과 하나의 통합 목적 함수(Eq. 5)로 결합한다.
필요 시 소스 이미지의 평균 분포를 타깃 이미지 분포를 나타내는 데 활용하고, 튜닝된 하이퍼파라미터로 SGD 기반 최적화를 적용한다.

실험 결과

연구 질문

RQ1자가 동기 피라미드 커리큘럼이 타깃 도메인 레이블 분포와 픽셀 수준 가짜 라벨을 결합해 적대적 도메인 적응 방법과 맞먹거나 능가할 수 있는가?
RQ2전통적인 슈퍼픽셀을 픽셀 사각형으로 대체하면 계산량이 줄면서 성능이 유지되는가?
RQ3자기학습과 커리큘럼 적응을 통합하면 GTAV/Cityscapes 및 SYNTHIA/Cityscapes 전이에서 성능에 어떤 영향을 미치는가?
RQ4피라미드 레벨(상단 이미지, 중간 사각형, 하단 픽셀)의 사용이 학습 신호 및 일반화에 어떤 영향을 미치는가?
RQ5이 비적대적 접근이 의미 분할 도메인 적응의 기존 CDA 또는 ST 벤치마크를 능가할 수 있는가?

주요 결과

PyCDA는 비적대적 방법 중 Cityscapes로의 GTAV 및 SYNTHIA에서의 비지도 도메인 적응에 대한 최첨단 성과를 달성했다.
4x4/8x8 픽셀 사각형으로 초분할을 대체하면 계산이 낮아지면서도 성능이 비슷하다.
상위 레이어 이미지 분포와 중간 레이어 영역 분포를 하단 레이어 가짜-라벨과 함께 함께 활용하면 CDA 또는 ST만 사용할 때보다 우수한 성능을 보인다.
이 방법은 서로 다른 백본(backbone)에서도 잘 작동하며 적대적 학습을 사용하는 여러 경쟁 방법을 능가한다.
정성적 결과에서 지배적 클래스(예: 도로, 건물, 초지)의 분할이 개선되고 일부 설정에서 더 작은 객체를 더 잘 다룬다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.