[논문 리뷰] Fully Convolutional Adaptation Networks for Semantic Segmentation
FCAN을 제안하는 시맨틱 분할의 이중 도메인 적응 프레임워크로, Appearance-level(AAN)과 Representation-level(RAN) 적응을 결합하여 합성 데이터와 실제 장면 간의 격차를 해소합니다; GTA5→Cityscapes 및 BDDS에서 비지도 도메인 적응 최첨단 성능을 달성합니다.
The recent advances in deep neural networks have convincingly demonstrated high capability in learning vision models on large datasets. Nevertheless, collecting expert labeled datasets especially with pixel-level annotations is an extremely expensive process. An appealing alternative is to render synthetic data (e.g., computer games) and generate ground truth automatically. However, simply applying the models learnt on synthetic images may lead to high generalization error on real images due to domain shift. In this paper, we facilitate this issue from the perspectives of both visual appearance-level and representation-level domain adaptation. The former adapts source-domain images to appear as if drawn from the "style" in the target domain and the latter attempts to learn domain-invariant representations. Specifically, we present Fully Convolutional Adaptation Networks (FCAN), a novel deep architecture for semantic segmentation which combines Appearance Adaptation Networks (AAN) and Representation Adaptation Networks (RAN). AAN learns a transformation from one domain to the other in the pixel space and RAN is optimized in an adversarial learning manner to maximally fool the domain discriminator with the learnt source and target representations. Extensive experiments are conducted on the transfer from GTA5 (game videos) to Cityscapes (urban street scenes) on semantic segmentation and our proposal achieves superior results when comparing to state-of-the-art unsupervised adaptation techniques. More remarkably, we obtain a new record: mIoU of 47.5% on BDDS (drive-cam videos) in an unsupervised setting.
연구 동기 및 목표
- 합성 데이터로부터 학습한 분할 모델의 도메인 시프를 unlabeled real data를 활용하여 해소한다.
- Appearance-level과 Representation-level 불변성을 결합한 양방향 적응 접근법을 개발한다.
- 비지도 도메인 적응 설정에서 분할 성능의 향상을 보여준다.
- AAN과 RAN의 결합이 GTA5→Cityscapes 및 BDDS에서 최첨단 결과를 낳는지 보여준다.
제안 방법
- 소스 도메인 이미지를 대상 도메인 스타일로 변환하되 원본 콘텐츠를 보존하도록 Content와 CNN 특징 맵 위의 스타일 손실을 이용해 Appearance Adaptation Networks(AAN)을 도입한다.
- 공유 FCN과 도메인 판별기를 갖춘 Representation Adaptation Networks(RAN)을 도입하고, 다중 규모 맥락을 위한 Atrous Spatial Pyramid Pooling(ASPP)을 확장하여 도메인 불변 표현을 학습한다.
- 소스 데이터에 대한 분할 손실과 도메인 판별사를 속이려는 적대적 손실을 통해 RAN을 최적화하고, 다중 스케일 ASPP를 사용해 적대적 학습을 강화한다.
- 합성 콘텐츠와 스타일 간의 거리를 최소화하기 위해 경사 하강에 의해 업데이트되는 화이트 노이즈 입력으로 AAN을 구현하고, 콘텐츠/스타일의 균형을 맞추기 위해 작은 알파를 설정한다.
- AAN의 특징 추출에 사전 훈련된 ResNet-50을 사용하고, ASPP를 갖춘 확장된 FCN(백본 ResNet-101)과 RAN의 네 가지 확장 분별기를 도입한다.
- 소스에서 분할 손실로 사전 학습한 뒤, 적대적 손실 및 분할 손실(lambda=5)로 미세 조정하는 SGD를 사용하여 Caffe에서 트레이닝한다.
실험 결과
연구 질문
- RQ1Appearance-level과 Representation-level 도메인 적응을 결합하는 것이 비지도 시맨틱 분할의 도메인 간 성능을 개선하는가?
- RQ2각 구성요소(AAN, RAN, ASPP)가 교차 도메인 분할 성능에 얼마나 기여하는가?
- RQ3GTA5에서 Cityscapes 및 BDDS로의 전이에서 얻는 이점은 무엇이며, 다중 스케일(MS) 확장이 결과를 더 개선하는가?
- RQ4일부 표기된 대상 도메인 데이터로 Semi-supervised 확장이 완전한 비지도 적응보다 유익한가?
주요 결과
- FCAN은 비지도 GTA5→Cityscapes 설정에서 46.60 mIoU를 달성한다(모든 구성요소 포함).
- AAN만으로도 성능이 향상되며, AAN과 RAN의 결합이 최상의 mIoU(46.60)를 제공하고 늦은 융합으로 추가 이득을 얻는다(46.60→46.60).
- RAN은 적대적 도메인 적응을 통해 상당한 이득을 제공하며, ADA, Conv, ASPP의 기여도가 각각 5.78%, 1.88%, 1.64%로 총합 9.3%의 상승을 FCN에 추가로 가져다준다.
- MS 확장은 FCAN(MS)으로 Cityscapes에서 47.75% mIoU를 달성한다.
- BDDS에서 FCAN은 43.35% mIoU, FCAN(MS) 45.47%, FCAN(MS+EN) 47.53%를 앙상블로 달성하며, 설정에 따라 FCNWild를 3.98%에서 7.16% 초과한다.
- Semi-supervised 적응은 목표 도메인 데이터에 라벨이 있는 경우 추가 이득을 보이며, 예를 들어 50개의 라벨 이미지에서 FCAN은 56.50 mIoU를, FCN은 47.57을 보인다; 1000개 이미지에서는 FCAN이 69.17, FCN은 68.05를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.