QUICK REVIEW

[논문 리뷰] No More Discrimination: Cross City Adaptation of Road Scene Segmenters

Yi‐Hsin Chen, Wei-Yu Chen|arXiv (Cornell University)|2017. 04. 27.

Advanced Neural Network Applications참고 문헌 37인용 수 23

한 줄 요약

이 논문은 도메인 적대적 학습과 Google Street View의 타임머신 기능을 통해 추출한 정적 객체 사전 정보를 활용하여, 도메인 간 시각적 특성의 차이가 있는 도시 간 도로 경로 세분화를 위한 비지도 도메인 적응 프레임워크를 제안한다. 시간에 따라 변화하지 않는 정적 환경 구조를 추론하기 위해 시간에 따라 수집된 레이블이 없는 이미지 자료를 활용하고, 종합적인 전역 및 클래스별 도메인 정렬을 적용함으로써, 인간의 레이블 없이도 새로운 도시에서 mIoU를 최대 4.1% 향상시켰으며, 레이블이 필요한 최신 기술들을 능가한다.

ABSTRACT

Despite the recent success of deep-learning based semantic segmentation, deploying a pre-trained road scene segmenter to a city whose images are not presented in the training set would not achieve satisfactory performance due to dataset biases. Instead of collecting a large number of annotated images of each city of interest to train or refine the segmenter, we propose an unsupervised learning approach to adapt road scene segmenters across different cities. By utilizing Google Street View and its time-machine feature, we can collect unannotated images for each road scene at different times, so that the associated static-object priors can be extracted accordingly. By advancing a joint global and class-specific domain adversarial learning framework, adaptation of pre-trained segmenters to that city can be achieved without the need of any user annotation or interaction. We show that our method improves the performance of semantic segmentation in multiple cities across continents, while it performs favorably against state-of-the-art approaches requiring annotated training data.

연구 동기 및 목표

한 도시에서 학습된 모델을 다른 시각적 특성이 다른 도시로 이식할 때 발생하는 도메인 이동 문제를 해결하기 위해.
목표 도시의 고비용 인간 레이블링 데이터가 필요 없도록 비지도 적응을 가능하게 하기 위해.
레이블이 없는 이미지와 시간적 일관성을 활용하여 다양한 도시 환경에서의 세분화 성능을 향상시키기 위해.
강건한 적응을 위해 전역 및 클래스별 도메인 정렬을 동시에 수행하는 프레임워크를 개발하기 위해.
레이블이 없는 시간에 따라 정렬된 스트리트 뷰 이미지에서 인간의 감독 없이도 정적 객체 사전 정보를 추출하기 위해.

제안 방법

동일한 도시적 위치에서 다양한 시간대에 걸쳐 수집된 레이블이 없는 시간에 동기화된 이미지를 Google Street View의 타임머신 기능을 활용하여 확보한다.
시간 경과에 따라 반복적으로 나타나는 객체(예: 표지판, 건물 등)를 식별하여 정적 객체 사전 정보를 추출함으로써, 도메인 정렬을 위한 약한 지도 신호를 제공한다.
소스 도메인(예: Cityscapes)과 타겟 도메인(예: 로마, 타이페이) 간의 특징 분포를 정렬하기 위해 종합적인 전역 및 클래스별 도메인 적대적 학습 프레임워크를 적용한다.
사전 학습된 소스 모델을 사용하여 타겟 도메인 이미지에 대해 '소프트' 편의 레이블을 생성하고, 클래스별 적응을 통해 도메인 식별을 감소시키기 위해 이를 개선한다.
정적 객체 사전 정보를 적대적 학습 과정에 통합하여 특징 학습을 이끌고 일반화 성능을 향상시킨다.
기울기 반전을 활용한 적대적 학습을 적용하여 도메인 간 격차를 최소화하면서도 의미적 일관성을 유지한다.

실험 결과

연구 질문

RQ1사전 학습된 세분화 모델을 새로운 도시에 적용할 때, 레이블이 없는 조건에서 비지도 도메인 적응이 성능 저하를 크게 줄일 수 있는가?
RQ2시간 경과에 따른 스트리트 뷰 이미지에서 추출한 정적 객체 사전 정보가 도시 간 세분화 성능 향상에 얼마나 효과적인가?
RQ3전역 정렬만 사용하는 것과 비교해 전역 및 클래스별 정렬을 동시에 적용할 경우 도메인 이동 문제를 더 효과적으로 완화하는가?
RQ4예를 들어, 합성 데이터(SYNTHIA)에서 실세계 데이터(Cityscapes)로의 이식과 같은 큰 도메인 이동 상황에서 이 방법은 어떻게 성능을 내는가?
RQ5이러한 방법이 인간의 레이블 없이도 완전히 지도된 미세조정 성능에 비슷한 성능을 달성할 수 있는가?

주요 결과

제안된 방법은 레이블이 없는 네 도시(Rome, Rio, Taipei, Tokyo)에서 사전 학습된 모델 대비 평균 mIoU 4.1% 향상되었으며, 성능 저하가 최대 30% 감소한 바 있다.
전역 도메인 정렬만으로 2.6% mIoU 향상, 클래스별 정렬은 0.9% mIoU 향상, 정적 객체 사전 정보는 추가로 0.6% mIoU 향상 기여.
t-SNE 시각화 결과는 사전 학습된 모델에서 최종 적응된 모델로 갈수록 도메인 이동이 점진적으로 감소하는 것을 확인하여 종합 정렬 프레임워크의 효과성을 입증한다.
정적 객체 사전 정보를 추출할 수 없는 SYNTHIA-to-Cityscapes 적응 과제에서는 전역 정렬에서 3.1% mIoU 향상, 클래스별 정렬에서 1.9% mIoU 향상 달성.
레이블이 필요한 최신 기술들을 능가하는 성능을 보이며, 다양한 도메인 이동 상황에서 강력한 일반화 및 내구성을 입증한다.
제거 실험 결과 각 구성 요소인 전역 정렬, 클래스별 정렬, 정적 객체 사전 정보가 독립적으로 기여하며 누적 효과를 보임을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.