Skip to main content
QUICK REVIEW

[논문 리뷰] Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning

Christoph Hümmer, Manuel Schwonberg|arXiv (Cornell University)|2023. 12. 04.
Domain Adaptation and Few-Shot Learning인용 수 8
한 줄 요약

VLTSeg는 CLIP/EVA-CLIP 비전-언어 인코더와 Mask2Former 디코더를 사용하여 입력 증강이나 복잡한 DG 손실 없이 시맨틱 분할의 최첨단 도메인 일반화를 달성합니다.

ABSTRACT

Domain generalization (DG) remains a significant challenge for perception based on deep neural networks (DNNs), where domain shifts occur due to synthetic data, lighting, weather, or location changes. Vision-language models (VLMs) marked a large step for the generalization capabilities and have been already applied to various tasks. Very recently, first approaches utilized VLMs for domain generalized segmentation and object detection and obtained strong generalization. However, all these approaches rely on complex modules, feature augmentation frameworks or additional models. Surprisingly and in contrast to that, we found that simple fine-tuning of vision-language pre-trained models yields competitive or even stronger generalization results while being extremely simple to apply. Moreover, we found that vision-language pre-training consistently provides better generalization than the previous standard of vision-only pre-training. This challenges the standard of using ImageNet-based transfer learning for domain generalization. Fully fine-tuning a vision-language pre-trained model is capable of reaching the domain generalization SOTA when training on the synthetic GTA5 dataset. Moreover, we confirm this observation for object detection on a novel synthetic-to-real benchmark. We further obtain superior generalization capabilities by reaching 77.9% mIoU on the popular Cityscapes-to-ACDC benchmark. We also found improved in-domain generalization, leading to an improved SOTA of 86.4% mIoU on the Cityscapes test set marking the first place on the leaderboard.

연구 동기 및 목표

  • 세그먼테이션에서 타깃 도메인이 학습 중 보이지 않는 도메인 일반화(DG)의 동기를 제시한다.
  • 비전-전용 사전학습 대비 CLIP/EVA-CLIP 기반 비전-언어 사전학습이 DG를 개선하는지 조사한다.
  • 간단한 전이 학습-baseline과 DG 향상을 위한 VL-가이드 학습 변형(VLTSeg)을 개발한다.
  • 합성→실제 및 실제→실제 벤치마크에서 최첨단 DG 성능을 입증한다.
  • 도메인 내 일반화 능력을 평가하고 특징 공간 정렬을 분석한다.]
  • method:[
  • 비전 인코더로 CLIP/EVA-CLIP를 시맨틱 분할의 초기화로 사용하고 디코더로 Mask2Former를 사용한다.
  • 표준 세그먼테이션 손실(교차엔트로피, Dice, BCE)을 이용한 간단한 전이 학습 설정에서 전체 네트워크를 미세조정한다.
  • VLTSeg를 도입하여 텍스트 인코더와 보조 PTM 정합 손실로 비전-언어 가이던스를 통합하고 디코더를 위한 공동 비전-언어 임베딩을 생성하는 DenseCLIP-영감 프레임워크를 제시한다.
  • 도 segmentation head로 DenseCLIP FPN을 대체하고 EVA-CLIP로 인코더를 초기화하여 도메인 일반화를 극대화한다.
  • VLTSeg 목표 함수 L_VLTSeg = L_PTM + L_M2F를 최적화한다. 여기서 L_PTM은 보조 프롬프트-텍스트 매칭 손실이고 L_M2F는 Mask2Former 세그먼테이션 손실이다.
  • synthetic-to-real(GTA5, SYNTHIA) 및 real-to-real(Cityscapes, BDD100k, Mapillary, ACDC) 설정에서 평가하고 mIoU 및 rPD 지표를 보고한다.]
  • research_questions:[
  • 비전-언어 사전학습(CLIP/EVA-CLIP)이 비전만 사전학습 대비 시맨틱 분할의 도메인 일반화에 우수한가?
  • 하위 학습 중 비전-언어 가이던스 스트림을 통합하면 복잡한 증강이나 whitening 손실 없이 DG를 향상시키는가?
  • 합성→실제 도메인 간 및 여러 실제 대상 도메인 간 DG 이점은 무엇인가?
  • 도메인 내 설정에서 Cityscapes→ACDC 및 Cityscapes→Cityscapes에서 VLTSeg의 성능은 이전 SOTA에 비해 어떠한가?
  • 인코더 초기화(CLIP vs EVA-CLIP) 및 PTM 손실이 DG 성능에 미치는 영향은 무엇인가?]
  • key_findings:[
  • VLTSeg는 GTA5→Cityscapes에서 7.6% 포인트의 절대 mIoU, Cityscapes→ACDC에서 6.93%의 DG 성능 향상으로 기존 SOTA 대비 DG 성능을 크게 개선한다.
  • VLTSeg는 Cityscapes→ACDC에서 76.48% mIoU를 달성(제출 시 SOTA), 기존 무감독 DG를 6.93% 포인트 상회하며 리더보드 1위를 차지한다.
  • VLTSeg는 도메인 내에서 Cityscapes 테스트에서 86.1% mIoU를 달성하여 리더보드 1위를 공유한다.
  • 비전-언어 사전학습(EVA-CLIP 초기화)은 DG 이점을 크게 제공한다: EVA-CLIP이 CLIP보다 +8.2%를, 두 방법 모두 비전-전용 및 SAM 베이스라인보다 우수하다.
  • 실제-실제 결과에서 VLTSeg가 SegFormer, SAM-ViT+M2F, HGFormer보다 더 높은 DG 평균 및 rPD를 달성한다.
  • 합성→실제 전이에서 GTA5의 DG 평균에서 HRDA보다 절대 mIoU가 7.6% 포인트 높은 성능과 SYNTHIA에서 5.2% 포인트 높은 성능을 보인다.

제안 방법

  • VLTSeg의 목표 함수 L_VLTSeg = L_PTM + L_M2F를 최적화한다.
  • L_PTM은 보조 프롬프트-텍스트 매칭 손실이고 L_M2F는 Mask2Former 세그먼테이션 손실이다.

실험 결과

연구 질문

  • RQ1비전-언어 사전학습(CLIP/EVA-CLIP)이 비전만 사전학습 대비 시맨틱 분할의 도메인 일반화에 우수한가?
  • RQ2하위 학습 중 비전-언어 가이던스 스트림을 통합하면 복잡한 증강이나 whitening 손실 없이 DG를 향상시키는가?
  • RQ3합성→실제 도메인 간 DG 이점은 무엇인가?
  • RQ4도메인 내 설정에서 Cityscapes→ACDC 및 Cityscapes→Cityscapes에서 VLTSeg의 성능은 이전 SOTA에 비해 어떠한가?
  • RQ5인코더 초기화(CLIP vs EVA-CLIP) 및 PTM 손실이 DG 성능에 미치는 영향은 무엇인가?

주요 결과

  • VLTSeg는 GTA5→Cityscapes에서 7.6% 절대 mIoU, Cityscapes→ACDC에서 6.93%의 DG 성능 향상으로 기존 SOTA 대비 DG 성능을 크게 개선한다.
  • VLTSeg는 Cityscapes→ACDC에서 76.48% mIoU를 달성(제출 시 SOTA), 기존 무감독 DG를 6.93% 포인트 상회하며 리더보드 1위를 차지한다.
  • VLTSeg는 도메인 내에서 Cityscapes 테스트에서 86.1% mIoU를 달성하여 리더보드 1위를 공유한다.
  • 비전-언어 사전학습(EVA-CLIP 초기화)은 DG 이점을 크게 제공한다: EVA-CLIP이 CLIP보다 +8.2%를, 두 방법 모두 비전-전용 및 SAM 베이스라인보다 우수하다.
  • 실제-실제 결과에서 VLTSeg가 SegFormer, SAM-ViT+M2F, HGFormer보다 더 높은 DG 평균 및 rPD를 달성한다.
  • 합성→실제 전이에서 GTA5의 DG 평균에서 HRDA보다 절대 mIoU가 7.6% 포인트 높은 성능과 SYNTHIA에서 5.2% 포인트 높은 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.