QUICK REVIEW

[논문 리뷰] Self-Challenging Improves Cross-Domain Generalization

Zeyi Huang, Haohan Wang|arXiv (Cornell University)|2020. 07. 05.

Domain Adaptation and Few-Shot Learning참고 문헌 26인용 수 43

한 줄 요약

Representation Self-Challenging (RSC)을 도입한 gradient 기반 학습 휴리스틱으로, 학습 중 지배 특징을 약화시켜 추가 파라미터 없이도 보지 않은 도메인에서 CNN 일반화를 향상시키는 방법이다.

ABSTRACT

Convolutional Neural Networks (CNN) conduct image classification by activating dominant features that correlated with labels. When the training and testing data are under similar distributions, their dominant features are similar, which usually facilitates decent performance on the testing data. The performance is nonetheless unmet when tested on samples from different distributions, leading to the challenges in cross-domain image classification. We introduce a simple training heuristic, Representation Self-Challenging (RSC), that significantly improves the generalization of CNN to the out-of-domain data. RSC iteratively challenges (discards) the dominant features activated on the training data, and forces the network to activate remaining features that correlates with labels. This process appears to activate feature representations applicable to out-of-domain data without prior knowledge of new domain and without learning extra network parameters. We present theoretical properties and conditions of RSC for improving cross-domain generalization. The experiments endorse the simple, effective and architecture-agnostic nature of our RSC method.

연구 동기 및 목표

다양한 학습/테스트 분포와 유사하지 않은 교차 도메인 일반화의 필요성에 대한 동기 부여.
일반화를 향상시키는 간단하고 도메인에 구애받지 않는 학습 휴리스틱(RSC) 제안.
RSC가 일반화 경계를 촘촘하게 하는 이론적 분석 제공.
표준 DG 벤치마크와 차등 실험을 통해 RSC를 실증적으로 검증.

제안 방법

각 반복에서 특징 표현 z에 대한 최상 분류기의 그래디언트를 계산한다.
그래디언트 크기의 상위 p 분위를 0으로 만드는 마스크를 만들어 가장 예측력이 높은 특징을 버린다.
해당 요소를 무음화하여 perturbed representation ʺzʺ를 형성한다.
Perturbed z를 사용하여 소프트맥스 출력을 계산하고 모든 네트워크 파라미터를 업데이트하기 위해 역전파한다.
RSC는 추가 파라미터가 필요 없고 아키텍처에 독립적이다; p는 discard된 특징 비율을 제어하는 하이퍼파라미터이다.
확장으로는 공간별(spatial-wise) 및 채널별(channel-wise) RSC와 배치 기반 적용 전략이 포함된다.

실험 결과

연구 질문

RQ1RSC가 도메인 정보를 사용하지 않고 교차 도메인 일반화를 개선하는가?
RQ2드랍 비율 p가 학습 역학 및 일반화에 어떤 영향을 미치는가?
RQ3그래디언트 기반 특징 드롭이 활성화 기반 또는 무작위 드롭보다 더 효과적인가?
RQ4공간- 및 채널-기반 RSC의 결합이 DG 성능을 더 높이는가?
RQ5RSC가 백본 아키텍처 및 데이터셋 복잡도에 따라 확장되는가?

주요 결과

RSC는 PACS, VLCS, Office-Home, ImageNet-Sketch 등 여러 DG 벤치마크에서 교차 도메인 일반화를 일관되게 개선한다.
PACS에서 RSC는 베이스라인 대비 상당한 개선을 제공하며, 예시 수치로 AlexNet에서 4.5, ResNet18에서 5.2, ResNet50에서 4.5의 이득을 보고한다.
차등 실험에서 Top-Gradient 특징 드롭이 Top-Activation 및 무작위 드롭보다 우수했고, 최적의 p는 여러 설정에서 대략 1/3에 해당한다.
Spatial-전용 RSC 및 Spatial+Channel RSC가 베이스라인 및 여러 드롭아웃 변형들을 능가하며 합성된 구조를 활용할 때 추가 이득을 보여준다.
RSC는 또한 ImageNet에서 네트워크 크기 간 성능 차이를 좁혀 더 큰 모델 없이도 강력한 일반화를 달성하는 효율성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.