[논문 리뷰] Robust and Generalizable Visual Representation Learning via Random Convolutions
이 논문은 robust한 시각 표현을 학습하기 위한 데이터 증강으로 random convolutions를 도입하여, 다수의 질감 변형 도메인을 생성하고 이를 원본과 결합함으로써 도메인 일반화와 스케치-이미지 태스크를 향상시킨다.
While successful for various computer vision tasks, deep neural networks have shown to be vulnerable to texture style shifts and small perturbations to which humans are robust. In this work, we show that the robustness of neural networks can be greatly improved through the use of random convolutions as data augmentation. Random convolutions are approximately shape-preserving and may distort local textures. Intuitively, randomized convolutions create an infinite number of new domains with similar global shapes but random local textures. Therefore, we explore using outputs of multi-scale random convolutions as new images or mixing them with the original images during training. When applying a network trained with our approach to unseen domains, our method consistently improves the performance on domain generalization benchmarks and is scalable to ImageNet. In particular, in the challenging scenario of generalizing to the sketch domain in PACS and to ImageNet-Sketch, our method outperforms state-of-art methods by a large margin. More interestingly, our method can benefit downstream tasks by providing a more robust pretrained visual representation.
연구 동기 및 목표
- 시각 표현에서 질감/스타일 시프트 및 도메인 시프트에 대한 강인성을 다루는 것.
- random convolutions를 이용한 데이터 증강 전략을 개발하여 전역 형태를 국부 질감 정보보다 촉진하는 것.
- 다중 규모의 random convolutions과 혼합 변형을 조사하여 다양한 훈련 뷰를 생성하는 것.
- 더 강인한 사전 학습 모델이 다운스트림 파인튜닝의 강인성을 향상시키는지 평가하는 것.
제안 방법
- random convolutions를 데이터 증강 기법으로 적용하여 질감이 무작위화되고 대략적으로 형태를 보존하는 이미지를 생성한다.
- 다중 규모의 random convolutions의 출력을 새로운 학습 입력으로 사용하거나 원본 이미지와 혼합한다.
- 강화된 데이터를 사용하여 로컬 질감 및 도메인 시프트에 대한 불변성을 촉진하도록 네트워크를 학습시킨다.
- 보지 않은 도메인을 포함한 도메인 일반화 벤치마크에서 강인성과 일반화를 평가한다.
- ImageNet과 같은 대규모 데이터셋에 이 접근 방식을 적용하여 확장성을 테스트한다.
- 복제를 위한 오픈 소스 코드를 제공한다.
실험 결과
연구 질문
- RQ1random convolutions가 시각 표현의 도메인 시프트와 작은 섭동에 대한 강인성을 향상시킬 수 있는가?
- RQ2random-convolution의 출력과 원본 이미지를 혼합하는 것이 보지 않은 도메인에 대한 일반화를 향상시키는가?
- RQ3이 방식이 ImageNet과 같은 대규모 데이터셋에 확장 가능하고 강인한 사전 학습 표현을 통해 다운스트림 작업에 유익한가?
- RQ4PACS (Sketch 도메인) 및 ImageNet-Sketch와 같은 도전적인 도메인 시프트 벤치마크에서 이 방법의 성능은 어떠한가?
주요 결과
- Random convolutions는 도메인 시프트와 작은 섭동에 대한 강인성을 향상시킨다.
- 다중 규모의 random convolutions는 글로벌 형태를 보존하는 다양한 질감 변화를 제공한다.
- 이 방법은 도메인 일반화 벤치마크에서 보지 않은 도메인에서 일관되게 성능을 향상시킨다.
- PACS(스케치 도메인) 및 ImageNet-Sketch와 같은 도전적인 설정에서 최첨단 방법을 능가한다.
- 이 접근법은 ImageNet까지 확장 가능하며 다운스트림 task에 이익을 주는 더 강인한 사전 학습 표현을 생성할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.