[논문 리뷰] Style Augmentation: Data Augmentation via Style Randomization
빠르고 임의의 스타일 전달 파이프라인을 통해 질감, 색상, 대비를 무작위로 바꾸는 스타일 보강을 도입합니다; 도메인 시프트에 대한 견고성을 향상시키고 기존 증강과 보완적으로 사용할 수 있습니다.
We introduce style augmentation, a new form of data augmentation based on random style transfer, for improving the robustness of convolutional neural networks (CNN) over both classification and regression based tasks. During training, our style augmentation randomizes texture, contrast and color, while preserving shape and semantic content. This is accomplished by adapting an arbitrary style transfer network to perform style randomization, by sampling input style embeddings from a multivariate normal distribution instead of inferring them from a style image. In addition to standard classification experiments, we investigate the effect of style augmentation (and data augmentation generally) on domain transfer tasks. We find that data augmentation significantly improves robustness to domain shift, and can be used as a simple, domain agnostic alternative to domain adaptation. Comparing style augmentation against a mix of seven traditional augmentation techniques, we find that it can be readily combined with them to improve network performance. We validate the efficacy of our technique with domain transfer experiments in classification and monocular depth estimation, illustrating consistent improvements in generalization.
연구 동기 및 목표
- 빠르고 도메인 비간섭 데이터 증강 기법을 도입하여 CNN에서의 도메인 편향과 과적합을 동기 부여하고 해결합니다.
- 모양과 내용을 보존하면서 질감/색상/대비를 무작위로 바꾸는 스타일 증강을 제안합니다.
- 이미지 분류, 교차 도메인 분류, 단안 깊이 추정에 대한 스타일 증강의 영향을 평가합니다.
- 실무자를 위한 PyTorch 구현을 오픈 소스화합니다.
제안 방법
- 입력을 변환하기 위해 실시간 신경 예술 스타일링 네트워크(Ghiasi et al. 2017)를 사용합니다.
- 스타일 예측기를 Painter By Numbers 임베딩에 맞춰 추정된 다변량 정규 분포에서 100차원 스타일 임베딩 z를 샘플링하는 방식으로 대체합니다.
- 스타일 전송 중 z에 조건부로 인스턴스 정규화를 적용하여 특징 맵을 조정합니다.
- 무작위 스타일 임베딩과 입력 자체 스타일 사이에서 알파로 제어되는 보간을 도입하여 증강 강도를 조정합니다.
- 다수의 작업과 아키텍처에 대해 전통적 증강과의 조합 및 단독 증강을 평가합니다.
- 증강 비율과 강도를 선택하기 위한 하이퍼파라미터 연구를 제공합니다.
실험 결과
연구 질문
- RQ1스타일 증강이 대상 도메인 데이터를 필요로 하지 않으면서 보이지 않는 도메인에 대한 일반화가 향상되는가?
- RQ2무작위 스타일 전송이 (분류, 도메인 전이, 깊이 추정) 같은 다양한 작업에서 실용적이고 도메인에 구애받지 않는 데이터 증강 전략으로 작동할 수 있는가?
- RQ3스타일 증강이 전통적 증강과 어떻게 상호 작용하여 성능 향상에 기여하는가?
- RQ4스타일 증강의 실용적 학습 비용 및 구현 고려사항은 무엇인가?
주요 결과
| 작업 | 모델 | 증강 방법 | 없음 | 전통적 | 스타일 | 둘 다 |
|---|---|---|---|---|---|---|
| AW→D | InceptionV3 | None | 0.789 | 0.890 | 0.882 | 0.952 |
| AW→D | ResNet18 | None | 0.399 | 0.704 | 0.495 | 0.873 |
| AW→D | ResNet50 | None | 0.488 | 0.778 | 0.614 | 0.922 |
| AW→D | VGG16 | None | 0.558 | 0.830 | 0.551 | 0.870 |
| DW→A | InceptionV3 | None | 0.183 | 0.160 | 0.254 | 0.286 |
| DW→A | ResNet18 | None | 0.113 | 0.128 | 0.147 | 0.229 |
| DW→A | ResNet50 | None | 0.130 | 0.156 | 0.170 | 0.244 |
| DW→A | VGG16 | None | 0.086 | 0.149 | 0.111 | 0.243 |
- 스타일 증강은 여러 아키텍처에서 도메인 전이 벤치마크에 유의한 정확도 향상을 가져다준다.
- STL-10에서 스타일 증강은 단독으로 수렴과 최종 정확도를 향상시키며, 이를 일곱 가지 전통 증강과 결합하면 정확도 8.5% 향상을 얻는다.
- Office 교차 도메인 분류에서 스타일 증강은 종종 전통 증강을 능가하거나 보완하며, 결합 사용 시 최종 정확도가 가장 높다.
- 단안 깊이 추정에서 스타일 증강으로 학습된 모델은 전통 증강만으로 학습된 모델보다 실제 데이터에 더 잘 일반화한다.
- 스타일 증강은 일반적으로 ImageNet에서 성능을 저하시켜 대규모 데이터셋에서 질감 단서를 제거하면 정확도가 감소한다는 질감 편향 연구와 일치한다.
- 이 방법은 학습 시간 오버헤드를 약간 증가시킬 수 있으며(예: 최적 증강 비율로 STL-10에서 약 6% 증가).
- 이 방법은 기존 증강과 보완적이며 도메인 편향을 완화하기 위한 단순하고 도메인에 구애받지 않는 전략으로 작용할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.