[논문 리뷰] Augmenting Convolutional networks with attention-based aggregation
이 논문은 convnets를 주의 기반의 글로벌 집계 계층으로 보강하여 분류를 위한 이미지 패치를 가중 처리함으로써 비국소적 추론을 가능하게 하면서도 일정한 패치 해상도와 분류, 세분화, 탐지 작업 전반에 걸친 우수한 정확도-메모리 트레이드오프를 유지한다.
We show how to augment any convolutional network with an attention-based global map to achieve non-local reasoning. We replace the final average pooling by an attention-based aggregation layer akin to a single transformer block, that weights how the patches are involved in the classification decision. We plug this learned aggregation layer with a simplistic patch-based convolutional network parametrized by 2 parameters (width and depth). In contrast with a pyramidal design, this architecture family maintains the input patch resolution across all the layers. It yields surprisingly competitive trade-offs between accuracy and complexity, in particular in terms of memory consumption, as shown by our experiments on various computer vision tasks: object classification, image segmentation and detection.
연구 동기 및 목표
- 학습된 주의 기반 풀링 계층을 합성곱 신경망의 표준 평균 풀링을 대체하도록 도입한다.
- 레이어 간 입력 해상도를 일정하게 유지하는 간단한 패치 기반 트렁크(PatchConvNet)를 개발한다.
- 패치를 각 패치에 대해 시각화 가능하게 하는 해석 가능한 주의 맵을 제공한다.
- 이미지 분류, 세분화, 탐지에서 경쟁력 있는 정확도-메모리 트레이드오프를 보여준다.
제안 방법
- 최종 평균 풀링을 교차 주의 풀링 계층으로 대체하고 클래스 토큰을 사용하여 이미지 패치를 주의한다.
- PatchConvNet을 도입하여 서로 다른 계층에서도 고정 차원을 유지하는 경량의 conv 스템과 잔차 블록으로 구성된 패치 기반 트렁크를 제시한다.
- 클래스별 토큰 매트릭스( per-class class token matrix )를 사용하여 클래스별로 주의 맵을 특화하는 것을 선택적으로 적용한다.
- Lamb 옵티마이저, 반 코사인 스케줄, 라벨 스무딩, RandAugment, Mixup, CutMix, Stochastic Depth, LayerNorm/BatchNorm 선택 등을 포함한 DeiT에서 영감을 받은 학습 레시피로 훈련한다.
- 해석 가능성을 위한 단일 헤드 주의 제공 및 메모리 사용량 감소를 위한 풀링 단계에서 직접 주의 맵을 시각화한다.
실험 결과
연구 질문
- RQ1주의 기반 집계 계층이 전통적인 풀링을 대체하면서 성능과 해석 가능성을 모두 유지할 수 있는가?
- RQ2고정 패치 해상도(PatchConvNet)를 유지하는 것이 피라미드식 아키텍처에 비해 메모리 및 계산 부담 측면에서 경쟁력 있는 정확도를 제공하는가?
- RQ3클래스별 주의(클래스당 하나의 토큰) 가 Classification 작업의 해석 가능성과 성능에 어떤 영향을 주는가?
- RQ4PatchConvNet의 학습 역학과 하이퍼파라미터 민감도(예: stochastic depth, 정규화)가 데이터셋 및 해상도에 따라 어떻게 달라지는가?
- RQ5제안된 모델이 분류와 함께 세분화 및 탐지에서도 최첨단 아키텍처와 비교하여 어떤 성능을 보이는가?
주요 결과
- 주의 기반 풀링은 직접적인 패치 기여 가중치를 제공하여 해석 가능한 시각화를 가능하게 한다.
- PatchConvNet은 많은 주의 기반 모델과 비교하여 메모리 사용량이 우수한 경쟁력 있는 Top-1 정확도를 제공한다.
- 더 높은 입력 해상도는 정확도를 향상시키며, 선형적인 메모리 증가를 보이고 무거운 피라미드 다운샘플링이 필요하지 않다.
- 학습된 풀링이 ResNet-50의 성능을 개선시키며 FLOPs 증가가 미미하게 나타난다.
- ImageNet21k에서 사전 학습하고 더 높은 해상도로 미세 조정한 모델은 224-site 사전 학습 대비 향상된 정확도를 달성한다.
- PatchConvNet은 의미론적 세분화(ADE20k) 및 객체 탐지(COCO)에서 주의 기반 베이스라인과 비슷한 FLOPs 및 메모리로 경쟁력 있는 결과를 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.