QUICK REVIEW

[논문 리뷰] Domain Generalization with MixStyle

Kaiyang Zhou, Yongxin Yang|arXiv (Cornell University)|2021. 04. 05.

Domain Adaptation and Few-Shot Learning참고 문헌 56인용 수 41

한 줄 요약

MixStyle은 도메인 간 인스턴스 수준 특징統을 확률적으로 혼합함으로써 CNN 학습을 규제하고, 명시적 이미지 합성 없이도 보지 못한 도메인에 대한 일반화를 향상시키며, 분류, 검색 및 RL에서 DG 작업에 대해 강력한 개선을 제공합니다.

ABSTRACT

Though convolutional neural networks (CNNs) have demonstrated remarkable ability in learning discriminative features, they often generalize poorly to unseen domains. Domain generalization aims to address this problem by learning from a set of source domains a model that is generalizable to any unseen domain. In this paper, a novel approach is proposed based on probabilistically mixing instance-level feature statistics of training samples across source domains. Our method, termed MixStyle, is motivated by the observation that visual domain is closely related to image style (e.g., photo vs.~sketch images). Such style information is captured by the bottom layers of a CNN where our proposed style-mixing takes place. Mixing styles of training instances results in novel domains being synthesized implicitly, which increase the domain diversity of the source domains, and hence the generalizability of the trained model. MixStyle fits into mini-batch training perfectly and is extremely easy to implement. The effectiveness of MixStyle is demonstrated on a wide range of tasks including category classification, instance retrieval and reinforcement learning.

연구 동기 및 목표

다중 소스 도메인으로부터 도메인 불변 특징을 학습하여 시각 영역의 도메인 이동을 해결한다.
인스턴스 간 스타일 통계치를 혼합하는 경량의 플러그-앤-플레이 모듈을 제안한다.
분류, 검색 및 강화 학습 과제에서 DG 개선을 보여준다.
새로운 이미지를 생성하지 않고도 암시적 스타일 혼합이 일반화를 향상시킨다는 것을 보인다.

제안 방법

CNN 계층 사이에 MixStyle을 삽입하여 하위 특징 맵의 스타일 통계를 깨뜨린다.
다른 도메인에서 두 인스턴스를 샘플링하고 베타 분포 가중치(alpha 하이퍼파라미터)를 사용한 컨벡스 합으로 혼합 통계를 형성한다.
원래 배치 통계와 참조 배치 통계에서 혼합 통계 gamma_mix와 beta_mix를 계산하고 이를 스타일 정규화된 특징에 적용한다.
학습 시에는 Bernoulli(0.5)로 MixStyle의 활성화를 제어한다; 테스트 시에는 MixStyle을 사용하지 않는다; 통계에 대한 stop-gradient 처리로 평균/분산 계산을 통한 그래디언트가 흐른다.
스타일 정보와 콘텐츠 정보를 균형 있게 다루기 위해 잔여 블록 전반에 걸친 MixStyle의 위치를 논의하고, 무작위 셔플과 도메인 라벨이 붙은 셔플 간의 초점 비교를 통한 제거 실험을 보고한다.

실험 결과

연구 질문

RQ1MixStyle이 특징 수준에서 스타일 다양성을 증가시켜 도메인 일반화를 개선할 수 있는가?
RQ2네트워크의 어느 위치에서 MixStyle을 적용하는 것이 최적의 도메인 일반화 성능을 제공하는가?
RQ3MixStyle이 표준 DG 벤치마크에서 픽셀 수준 데이터 증가 및 다른 DG 방법과 비교하여 얼마나 잘 작동하는가?
RQ4MixStyle이 분류를 넘어 인스턴스 재식별 및 강화 학습과 같은 작업에서도 효과적인가?

주요 결과

MixStyle은 PACS에서 일반화를 일관되게 향상시키며 기본 ResNet-18보다 우수한 성능을 보이고 Mixup 및 DropBlock 베이스라인을 능가한다.
무작위 셔플 또는 도메인 라벨을 가진 MixStyle은 각각 PACS에서 평균 정확도 82.8% 및 83.7%를 달성하여 대부분의 기존 DG 방법을 능가한다.
여러 하위 레벨 계층에 MixStyle을 적용하면 성능이 더 좋아지며, 마지막 블록에 적용하면 의미적 콘텐츠가 거기에 포착되기 때문에 성능이 떨어진다.
MixStyle은 DG 태스크에서 픽셀 수준 증가 방법인 L2A-OT보다 우수한 성능을 보이며 계산적으로도 훨씬 가볍다.
교차 데이터셋 인물 재식별에서 무작위 셔플 또는 도메인 라벨이 있는 MixStyle은 Market1501 및 Duke 데이터셋에서 Baseline 대비 mAP/R1/R5/R10을 개선한다.
강화 학습에서 MixStyle은 보이지 않는 환경에 대한 일반화를 향상시키고 IBAC-SNI를 보완한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.