[논문 리뷰] FSDR: Frequency Space Domain Randomization for Domain Generalization
FSDR은 이미지를 주파수 성분으로 분해하여 도메인 불변 부분은 유지하고 도메인 변이 부분은 무작위화함으로써 의미 분할의 도메인 일반화를 향상시킨다. 두 가지 접근법(FSDR-SA 및 FSDR-SL)을 제시하며 단일 소스 기준선 대비 우수한 성능과 일부 도메인 적응 방법과의 경쟁력 있는 성능을 달성한다.
Domain generalization aims to learn a generalizable model from a known source domain for various unknown target domains. It has been studied widely by domain randomization that transfers source images to different styles in spatial space for learning domain-agnostic features. However, most existing randomization uses GANs that often lack of controls and even alter semantic structures of images undesirably. Inspired by the idea of JPEG that converts spatial images into multiple frequency components (FCs), we propose Frequency Space Domain Randomization (FSDR) that randomizes images in frequency space by keeping domain-invariant FCs (DIFs) and randomizing domain-variant FCs (DVFs) only. FSDR has two unique features: 1) it decomposes images into DIFs and DVFs which allows explicit access and manipulation of them and more controllable randomization; 2) it has minimal effects on semantic structures of images and domain-invariant features. We examined domain variance and invariance property of FCs statistically and designed a network that can identify and fuse DIFs and DVFs dynamically through iterative learning. Extensive experiments over multiple domain generalizable segmentation tasks show that FSDR achieves superior segmentation and its performance is even on par with domain adaptation methods that access target data in training.
연구 동기 및 목표
- 대상 도메인 데이터 없이 도메인 일반화를 촉진하기 위해 도메인 불변 특징의 의도치 않은 변화 최소화.
- 도메인 변이 주파수 성분을 분리하고 조작하는 주파수-공간 프레임워크를 제안한다.
- 견고한 일반화를 위해 DVF/DIF를 식별하고 적용하는 두 가지 전략(FSDR-SA 및 FSDR-SL)을 개발한다.
- 주파수-공간 랜덤화가 공간-공간 방법을 보완하고 여러 대상에서 의미 분할을 향상시킴을 보여준다.
제안 방법
- 이미지를 DCT를 사용하여 주파수 공간으로 변환하고 64개의 주파수 성분(FCs)으로 분해한다.
- 스펙트럼 분석과 반복 학습을 통해 도메인 불변 FCs(DIFs)와 도메인 변이 FCs(DVFs)를 식별한다.
- DIFs를 유지하고 DVFs만 무작위화하여 의미 구조를 보존한다.
- 두 가지 FSDR 변형을 구현한다: FSDR-SA는 DVF 무작위화를 위해 참조 이미지와의 히스토그램 매칭을 사용하고, FSDR-SL은 양방향 엔트로피 기반 스펙트럼 학습을 사용하여 DVFs/DIFs를 적응적으로 식별한다.
- L_orig + L_SA + L_SL를 결합한 목표로 학습하여 도메인-강건하고 불변한 표현을 강제한다.
- 추가 오버헤드가 거의 없도록 기존의 도메인 적응/일반화 모델과 선택적으로 FSDR를 통합한다.
실험 결과
연구 질문
- RQ1주파수-도메인 분해(DIFs vs DVFs)가 시맨틱을 보존하고 스타일을 교란하면서 도메인 일반화를 개선할 수 있는가?
- RQ2스펙트럼 분석 기반과 스펙트럼 학습 기반 FSDR 전략이 견고한 일반화를 위해 DIFs/DVFs를 효과적으로 식별하는가?
- RQ3FSDR이 전통적인 공간 도메인 일반화 방법과 어떻게 상호 작용하며 이를 보완할 수 있는가?
- RQ4GTA5에서 SYNTHIA에서 실제 대상에 이르는 의미 분할 성능에 FSDR 구성요소를 포함하는 영향은 무엇인가?
주요 결과
- SA와 SL 손실을 모두 사용하는 FSDR은 Cityscapes, Mapillary, BDD에서 기준선을 능가한다( mIoU: baseline 33.4, 27.9, 27.3 대비 전체 FSDR 44.8, 43.4, 41.2 ).
- FSDR-SA와 FSDR-SL은 각각 기반선보다 개선되며, 적응적이고 양방향 스펙트럼 학습 덕분에 FSDR-SL이 더 큰 이득을 보인다(예: Cityscapes/Mapillary/BDD에서 43.6 vs 42.1 vs 40.1).
- FSDR은 GTA5 및 SYNTHIA에서 실제 대상에 대한 여러 도메인 적응/일반화 방법과 비교하여 최고 수준의 혹은 경쟁력 있는 성능을 달성한다.
- 이 방법은 기존 도메인 적응/생성 네트워크에 보완적이며 통합 시 일관된 개선을 보여준다(종합 결과에 나타난 바와 같이).
- 민감도 분석에 따르면 보존된 FC의 비율 p에 대해 성능이 강건하며 극심한 설정(p가 0에 가까움 또는 1에 가까움)에서만 유의한 하락이 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.