Skip to main content
QUICK REVIEW

[논문 리뷰] ResizeMix: Mixing Data with Preserved Object Information and True Labels

Jie Qin, Jiemin Fang|arXiv (Cornell University)|2020. 12. 21.
Advanced Neural Network Applications참고 문헌 54인용 수 39
한 줄 요약

ResizeMix는 전체 원본 이미지를 작은 패치로 바꾼 뒤 이를 대상 이미지의 임의 영역에 붙여 넣고, 추가 계산 없이 객체 정보와 진짜 라벨을 보존하며, 분류에서 CutMix 및 주목도 가이드 증강 방법을 능가하고 물체 검출 일반화 성능을 향상시킵니다.

ABSTRACT

Data augmentation is a powerful technique to increase the diversity of data, which can effectively improve the generalization ability of neural networks in image recognition tasks. Recent data mixing based augmentation strategies have achieved great success. Especially, CutMix uses a simple but effective method to improve the classifiers by randomly cropping a patch from one image and pasting it on another image. To further promote the performance of CutMix, a series of works explore to use the saliency information of the image to guide the mixing. We systematically study the importance of the saliency information for mixing data, and find that the saliency information is not so necessary for promoting the augmentation performance. Furthermore, we find that the cutting based data mixing methods carry two problems of label misallocation and object information missing, which cannot be resolved simultaneously. We propose a more effective but very easily implemented method, namely ResizeMix. We mix the data by directly resizing the source image to a small patch and paste it on another image. The obtained patch preserves more substantial object information compared with conventional cut-based methods. ResizeMix shows evident advantages over CutMix and the saliency-guided methods on both image classification and object detection tasks without additional computation cost, which even outperforms most costly search-based automatic augmentation methods.

연구 동기 및 목표

  • 이미지 주목도가 혼합 기반 증강에서의 역할을 평가하고, 패치를 자르는 방식의 단점(라벨 잘못 매칭 및 객체 정보 손실)을 식별합니다.
  • 추가 비용 없이 객체 정보와 진짜 라벨을 보존하는 데이터 증강 방법을 개발합니다.
  • ResizeMix의 효과를 CIFAR-10/100 및 ImageNet의 이미지 분류와 MS-COCO 및 Pascal VOC의 객체 검출에서 Demonstrate합니다.
  • ResizeMix를 CutMix 및 주목도 가이드 방법과 비교하고, 설계 선택을 이해하기 위한 절삭 연구(ablation)를 분석합니다.

제안 방법

  • 패치 붙이기 위치(비주목, 주목, 임의)와 패치 소스(주목, 비주목, 임의)를 비교하여 주목도 기반 혼합의 효과를 체계적으로 평가합니다.
  • ResizeMix를 제안합니다: 전체 원본 이미지를 임의 스케일 tau로 크기를 조정하고, 조정된 패치를 대상 이미지의 임의 영역에 붙여 넣으며, 라벨 혼합을 l_m = lambda l_s + (1-lambda) l_t로 계산하고 lambda = tau^2로 설정합니다.
  • 주목도 모듈이나 탐색 기반 증강을 피하여 표준 혼합보다 추가 계산 비용이 없도록 보장합니다.
  • CIFAR-10, CIFAR-100, ImageNet 및 객체 검출 벤치마크(MS-COCO, Pascal VOC)에서 CutMix 및 주목도 가이드 방법과 비교하기 위해 광범위한 실험을 수행합니다.

실험 결과

연구 질문

  • RQ1주목 정보가 혼합 기반 증강의 효과에 필수적인가, 특히 패치를 붙이는 위치와 패치를 얻는 방법과 관련하여 어떻게 작용하는가?
  • RQ2비자르르기(비자르르린) 패치—특히 크기를 조정한 전체 이미지—가 데이터 혼합에서 라벨 잘못 매칭과 객체 정보 손실을 해소할 수 있는가?
  • RQ3ResizeMix가 이미지 분류 및 객체 검출 작업에서 CutMix 및 주목도 가이드 증강에 비해 어떻게 작동하는가?
  • RQ4Resiz eMix의 성능에 영향을 주는 절삭 이탈(예: 크기 조정 스케일)이나 RandAugment 배치를 포함한 Ablation은 무엇인가?

주요 결과

  • 주목도 지도가 붙일 위치에 약간의 이점을 제공하지만, 무작위 붙이기가 더 다양한 데이터 다양성과 종종 더 나은 성능을 제공합니다.
  • 자르기 기반 패치는 라벨 매칭 문제 및 객체 정보 손실을 일으킬 수 있지만, 전체 이미지를 크기를 조정하면 객체 정보를 보존하고 잘못된 매칭을 피할 수 있습니다.
  • ResizeMix는 CIFAR-10/100 및 ImageNet에서 추가 계산 비용 없이 Consistently CutMix 및 주목도 가이드 방법보다 우수하게 성능을 보이며, RandAugment와 결합하면 결과가 더 향상됩니다.
  • 객체 검출에서 ResizeMix-프리트레인 백본은 MS-COCO 및 Pascal VOC의 SSD 및 Faster R-CNN 설정에서 CutMix보다 더 높은 mAP를 보입니다.
  • Abations은 절반 해상도 훈련에서 크기 조정이 자르기보다 우수함을 보여주고, 최적의 이득을 위해 혼합 후 RandAugment를 적용해야 하며, 크기 조정 스케일 alpha/beta를 0.1–0.8 사이로 설정하는 것이 효과적임을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.