Skip to main content
QUICK REVIEW

[논문 리뷰] Augmenting Convolutional networks with attention-based aggregation

Hugo Touvron, Matthieu Cord|arXiv (Cornell University)|2021. 12. 27.
Advanced Neural Network Applications인용 수 30
한 줄 요약

이 논문은 convnets를 주의 기반의 글로벌 집계 계층으로 보강하여 분류를 위한 이미지 패치를 가중 처리함으로써 비국소적 추론을 가능하게 하면서도 일정한 패치 해상도와 분류, 세분화, 탐지 작업 전반에 걸친 우수한 정확도-메모리 트레이드오프를 유지한다.

ABSTRACT

We show how to augment any convolutional network with an attention-based global map to achieve non-local reasoning. We replace the final average pooling by an attention-based aggregation layer akin to a single transformer block, that weights how the patches are involved in the classification decision. We plug this learned aggregation layer with a simplistic patch-based convolutional network parametrized by 2 parameters (width and depth). In contrast with a pyramidal design, this architecture family maintains the input patch resolution across all the layers. It yields surprisingly competitive trade-offs between accuracy and complexity, in particular in terms of memory consumption, as shown by our experiments on various computer vision tasks: object classification, image segmentation and detection.

연구 동기 및 목표

  • 학습된 주의 기반 풀링 계층을 합성곱 신경망의 표준 평균 풀링을 대체하도록 도입한다.
  • 레이어 간 입력 해상도를 일정하게 유지하는 간단한 패치 기반 트렁크(PatchConvNet)를 개발한다.
  • 패치를 각 패치에 대해 시각화 가능하게 하는 해석 가능한 주의 맵을 제공한다.
  • 이미지 분류, 세분화, 탐지에서 경쟁력 있는 정확도-메모리 트레이드오프를 보여준다.

제안 방법

  • 최종 평균 풀링을 교차 주의 풀링 계층으로 대체하고 클래스 토큰을 사용하여 이미지 패치를 주의한다.
  • PatchConvNet을 도입하여 서로 다른 계층에서도 고정 차원을 유지하는 경량의 conv 스템과 잔차 블록으로 구성된 패치 기반 트렁크를 제시한다.
  • 클래스별 토큰 매트릭스( per-class class token matrix )를 사용하여 클래스별로 주의 맵을 특화하는 것을 선택적으로 적용한다.
  • Lamb 옵티마이저, 반 코사인 스케줄, 라벨 스무딩, RandAugment, Mixup, CutMix, Stochastic Depth, LayerNorm/BatchNorm 선택 등을 포함한 DeiT에서 영감을 받은 학습 레시피로 훈련한다.
  • 해석 가능성을 위한 단일 헤드 주의 제공 및 메모리 사용량 감소를 위한 풀링 단계에서 직접 주의 맵을 시각화한다.

실험 결과

연구 질문

  • RQ1주의 기반 집계 계층이 전통적인 풀링을 대체하면서 성능과 해석 가능성을 모두 유지할 수 있는가?
  • RQ2고정 패치 해상도(PatchConvNet)를 유지하는 것이 피라미드식 아키텍처에 비해 메모리 및 계산 부담 측면에서 경쟁력 있는 정확도를 제공하는가?
  • RQ3클래스별 주의(클래스당 하나의 토큰) 가 Classification 작업의 해석 가능성과 성능에 어떤 영향을 주는가?
  • RQ4PatchConvNet의 학습 역학과 하이퍼파라미터 민감도(예: stochastic depth, 정규화)가 데이터셋 및 해상도에 따라 어떻게 달라지는가?
  • RQ5제안된 모델이 분류와 함께 세분화 및 탐지에서도 최첨단 아키텍처와 비교하여 어떤 성능을 보이는가?

주요 결과

  • 주의 기반 풀링은 직접적인 패치 기여 가중치를 제공하여 해석 가능한 시각화를 가능하게 한다.
  • PatchConvNet은 많은 주의 기반 모델과 비교하여 메모리 사용량이 우수한 경쟁력 있는 Top-1 정확도를 제공한다.
  • 더 높은 입력 해상도는 정확도를 향상시키며, 선형적인 메모리 증가를 보이고 무거운 피라미드 다운샘플링이 필요하지 않다.
  • 학습된 풀링이 ResNet-50의 성능을 개선시키며 FLOPs 증가가 미미하게 나타난다.
  • ImageNet21k에서 사전 학습하고 더 높은 해상도로 미세 조정한 모델은 224-site 사전 학습 대비 향상된 정확도를 달성한다.
  • PatchConvNet은 의미론적 세분화(ADE20k) 및 객체 탐지(COCO)에서 주의 기반 베이스라인과 비슷한 FLOPs 및 메모리로 경쟁력 있는 결과를 얻는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.