Skip to main content
QUICK REVIEW

[논문 리뷰] Vision Transformers with Patch Diversification

Chengyue Gong, Dilin Wang|arXiv (Cornell University)|2021. 04. 26.
Advanced Neural Network Applications참고 문헌 54인용 수 42
한 줄 요약

이 논문은 비전 트랜스포머의 패치 표현을 다양화하기 위한 세 가지 패치-다양성 손실을 도입하여 훈련을 안정화시키고 ImageNet에서 정확도를 높이며 아키텍처를 변경하지 않고도 의미 분할 성능을 개선한다.

ABSTRACT

Vision transformer has demonstrated promising performance on challenging computer vision tasks. However, directly training the vision transformers may yield unstable and sub-optimal results. Recent works propose to improve the performance of the vision transformers by modifying the transformer structures, e.g., incorporating convolution layers. In contrast, we investigate an orthogonal approach to stabilize the vision transformer training without modifying the networks. We observe the instability of the training can be attributed to the significant similarity across the extracted patch representations. More specifically, for deep vision transformers, the self-attention blocks tend to map different patches into similar latent representations, yielding information loss and performance degradation. To alleviate this problem, in this work, we introduce novel loss functions in vision transformer training to explicitly encourage diversity across patch representations for more discriminative feature extraction. We empirically show that our proposed techniques stabilize the training and allow us to train wider and deeper vision transformers. We further show the diversified features significantly benefit the downstream tasks in transfer learning. For semantic segmentation, we enhance the state-of-the-art (SOTA) results on Cityscapes and ADE20k. Our code is available at https://github.com/ChengyueGongR/PatchVisionTransformer.

연구 동기 및 목표

  • 심층 비전 트랜스포머에서 패치 표현 간 높은 유사성으로 인한 불안정성 동기를 제시한다.
  • 레이어 전반에 걸친 패치 특징을 명시적으로 다양화하는 정규화 손실을 제안한다.
  • 다양성 촉진 학습이 훈련을 안정시키고 더 넓고 깊은 트랜스포머를 학습 가능하게 한다는 것을 보여준다.
  • Cityscapes 및 ADE20K와 같은 의미 분할 벤치마크에 대한 전이 학습 성능 향상을 보여준다.

제안 방법

  • 최종 계층에서 서로 다른 패치 표현 간의 코사인 유사도를 직접 최소화하기 위해 패치 단위 코사인 손실을 계산한다.
  • 마지막 계층의 패치를 처음 계층의 패치와 일치시키고 서로 다른 패치는 서로 멀리 떨어지게 하여 정렬하는 패치 단위 대조 손실을 도입한다.
  • 두 이미지의 입력 패치를 혼합하고 각 패치가 자신이 속한 이미지 레이블을 예측하도록 학습시키는 패치 단위 혼합 손실을 적용한다.
  • 네트워크 수정 없이 세 손실의 가중 합(α1 L_cos + α2 L_contrastive + α3 L_mixing)으로 학습한다.
  • 기존 아키텍처(예: DeiT, SWIN)을 활용하여 ImageNet 및 다운스트림 분할 작업에서의 개선을 평가한다.

실험 결과

연구 질문

  • RQ1패치 표현의 명시적 다양화가 깊고 넓은 비전 트랜스포머의 학습을 안정화시키는가?
  • RQ2패치-다양성 손실이 아키텍처 변경 없이 ImageNet 분류 정확도를 향상시키는가?
  • RQ3다양화된 패치 특징이 의미 분할과 같은 다운스트리밍 작업으로 더 잘 이전되는가?
  • RQ4제안된 손실이 기존 학습 트릭 및 데이터 증강과 어떻게 상호 작용하는가?

주요 결과

  • ImageNet에서 DeiT-Base24 DiversePatch로 상위-1 정확도 83.3%(이전 82.1%), 그리고 DeiT-Small24가 82.2%(이전 80.3%)로 향상.
  • SWIN-Base with DiversePatch가 상위-1 정확도 83.7%(83.4%에서), SWIN-Large는 87.4%로 ImageNet-22K에서 사전학습 후 미세조정 시 향상.
  • 최종 표현에서 패치 간 코사인 유사도가 감소하여 패치 특징이 더 다양해지고 후반부에서 ResNet-50과 비교 가능해짐.
  • DiversePatch로 사전학습된 백본이 ADE20K에서 새로운 최첨단 분할 성능(54.5% mIoU) 및 Cityscapes 검증에서(83.6% mIoU) 달성.
  • DiversePatch로 ImageNet-22K 파인 튜닝 시 SWIN-Large에서 87.4% 상위-1, ViT-Large에서 83.9% 상위-1(베이스선 87.3% 및 83.6%)

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.