[논문 리뷰] Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
NaViT (Patch n' Pack) enables Vision Transformers to process images at native resolutions and arbitrary aspect ratios by packing multiple examples into one sequence, improving training efficiency and enabling flexible inference across resolutions.
The ubiquitous and demonstrably suboptimal choice of resizing images to a fixed resolution before processing them with computer vision models has not yet been successfully challenged. However, models such as the Vision Transformer (ViT) offer flexible sequence-based modeling, and hence varying input sequence lengths. We take advantage of this with NaViT (Native Resolution ViT) which uses sequence packing during training to process inputs of arbitrary resolutions and aspect ratios. Alongside flexible model usage, we demonstrate improved training efficiency for large-scale supervised and contrastive image-text pretraining. NaViT can be efficiently transferred to standard tasks such as image and video classification, object detection, and semantic segmentation and leads to improved results on robustness and fairness benchmarks. At inference time, the input resolution flexibility can be used to smoothly navigate the test-time cost-performance trade-off. We believe that NaViT marks a departure from the standard, CNN-designed, input and modelling pipeline used by most computer vision models, and represents a promising direction for ViTs.
연구 동기 및 목표
- 고정 해상도 CNN 파이프라인에서 벗어나 ViT가 원래 해상도, 가로세로 비율을 보존하는 입력을 처리하도록 자극한다.
- 여러 이미지의 패치를 서로 다른 이미지에서 하나의 시퀀스로 묶어 효율적인 학습을 가능하게 하는 Patch n’ Pack을 도입한다.
- 주요 어텐션/MLP 연산은 변경하지 않으면서 PACK, 가변 해상도, 토큰 드로핑을 지원하는 아키텍처 및 학습 수정사항을 개발한다.
- NaViT가 고정 형태의 ViT에 비해 사전 학습 효율성, 다운스트림 태스크로의 전이 및 공정성/강건성 벤치마크에서 개선됨을 입증한다.
제안 방법
- Patch n’ Pack 도입: 여러 이미지를 단일 시퀀스로 묶어 원래 해상도 입력을 가능하게 한다.
- 교차 예제 어텐션을 방지하기 위한 마스킹과 Pack된 시퀀스 내에서 각 예제의 표현을 얻기 위한 마스킹 풀링을 사용한다.
- 임의의 해상도와 가로세로 비율을 지원하기 위한 절대 및 부분적 위치 임베딩을 채택한다.
- 학습 효율성과 성능을 높이기 위해 연속 토큰 드로핑 및 해상도 샘플링을 가능하게 한다.
- 감독 학습 분류(JFT-4B)와 대조적 이미지-텍스트 사전학습(WebLI) 모두에 대해 학습을 확장한다.
- packing 설정에서 큰 Emax로 학습을 확장하기 위한 고정 배치-시퀀스 고려사항 및 분할 대조 손실을 적용한다.
실험 결과
연구 질문
- RQ1비전 트랜스포머를 이미지 크기를 재조정하지 않고 원래 해상도와 임의의 가로세로 비율로 학습시킬 수 있는가?
- RQ2Patch n’ Pack이 고정 계산 예산 하에서 다양한 태스크 및 모달리티에서 학습 효율성과 최종 성능을 개선하는가?
- RQ3해상도 샘플링, 토큰 드로핑, 그리고 절대/부분 위치 임베딩은 보이지 않는 해상도와 가로세로 비율에 대한 일반화에 어떤 영향을 미치는가?
- RQ4NaViT 표현이 세그먼테이션, 탐지, 비디오 분류와 같은 다운스트림 태스크로 ViT에 비해 효과적으로 전달되는가?
- RQ5네이티브 가로세로 입력이 공정성 및 강건성 벤치마크에 미치는 영향은 무엇인가?
주요 결과
| 지표 | ViT-L/14 | |
|---|---|---|
| ImageNet 제로샷 | 68.3% | 72.9% |
| LVIS AP | 23.3% | 28.3% |
| LVIS AP rare | 17.2% | 24.3% |
- NaViT는 규모에 따라 컴퓨트가 맞춰진 ViT를 지속적으로 능가하며, 사전 학습에서 약 4배 적은 컴퓨트로도 최고의 ViT와 대등한 성능을 달성한다.
- 가변 해상도와 토큰 드로핑으로 학습할 때 NaViT-L/16은 같은 컴퓨트 예산에서 ViT보다 최대 다섯 배 더 많은 이미지를 처리할 수 있다.
- NaViT는 해상도 비율을 보존하고 여러 해상도에서 평가를 지원하여 추후 비용-성능 트레이드오프를 저렴하게 할당할 수 있다.
- 특히 x- 및 y- 임베딩의 합성 등 분해 위치 임베딩은 2D 임베딩 대비 보이지 않는 해상도와 비율에 대해 더 잘 일반화한다.
- NaViT는 ViT 기준선에 비해 분포 외 강건성 및 공정성 관련 신호 주석 성능이 향상된다.
- 세그멘테이션과 객체 탐지에 전이되면 LVIS AP(23.3%에서 28.3%로 개선) 및 제로샷 ImageNet에서 NaViT가 더 나은 원래 해상도 처리 능력을 보이며, 비디오 분류에서도 ViViT-L/14 대비 경쟁력이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.