QUICK REVIEW

[논문 리뷰] Augmenting Convolutional networks with attention-based aggregation

Hugo Touvron, Matthieu Cord|arXiv (Cornell University)|2021. 12. 27.

Advanced Neural Network Applications인용 수 30

한 줄 요약

이 논문은 convnets를 주의 기반의 글로벌 집계 계층으로 보강하여 분류를 위한 이미지 패치를 가중 처리함으로써 비국소적 추론을 가능하게 하면서도 일정한 패치 해상도와 분류, 세분화, 탐지 작업 전반에 걸친 우수한 정확도-메모리 트레이드오프를 유지한다.

ABSTRACT

We show how to augment any convolutional network with an attention-based global map to achieve non-local reasoning. We replace the final average pooling by an attention-based aggregation layer akin to a single transformer block, that weights how the patches are involved in the classification decision. We plug this learned aggregation layer with a simplistic patch-based convolutional network parametrized by 2 parameters (width and depth). In contrast with a pyramidal design, this architecture family maintains the input patch resolution across all the layers. It yields surprisingly competitive trade-offs between accuracy and complexity, in particular in terms of memory consumption, as shown by our experiments on various computer vision tasks: object classification, image segmentation and detection.

연구 동기 및 목표

학습된 주의 기반 풀링 계층을 합성곱 신경망의 표준 평균 풀링을 대체하도록 도입한다.
레이어 간 입력 해상도를 일정하게 유지하는 간단한 패치 기반 트렁크(PatchConvNet)를 개발한다.
패치를 각 패치에 대해 시각화 가능하게 하는 해석 가능한 주의 맵을 제공한다.
이미지 분류, 세분화, 탐지에서 경쟁력 있는 정확도-메모리 트레이드오프를 보여준다.

제안 방법

최종 평균 풀링을 교차 주의 풀링 계층으로 대체하고 클래스 토큰을 사용하여 이미지 패치를 주의한다.
PatchConvNet을 도입하여 서로 다른 계층에서도 고정 차원을 유지하는 경량의 conv 스템과 잔차 블록으로 구성된 패치 기반 트렁크를 제시한다.
클래스별 토큰 매트릭스( per-class class token matrix )를 사용하여 클래스별로 주의 맵을 특화하는 것을 선택적으로 적용한다.
Lamb 옵티마이저, 반 코사인 스케줄, 라벨 스무딩, RandAugment, Mixup, CutMix, Stochastic Depth, LayerNorm/BatchNorm 선택 등을 포함한 DeiT에서 영감을 받은 학습 레시피로 훈련한다.
해석 가능성을 위한 단일 헤드 주의 제공 및 메모리 사용량 감소를 위한 풀링 단계에서 직접 주의 맵을 시각화한다.

실험 결과

연구 질문

RQ1주의 기반 집계 계층이 전통적인 풀링을 대체하면서 성능과 해석 가능성을 모두 유지할 수 있는가?
RQ2고정 패치 해상도(PatchConvNet)를 유지하는 것이 피라미드식 아키텍처에 비해 메모리 및 계산 부담 측면에서 경쟁력 있는 정확도를 제공하는가?
RQ3클래스별 주의(클래스당 하나의 토큰) 가 Classification 작업의 해석 가능성과 성능에 어떤 영향을 주는가?
RQ4PatchConvNet의 학습 역학과 하이퍼파라미터 민감도(예: stochastic depth, 정규화)가 데이터셋 및 해상도에 따라 어떻게 달라지는가?
RQ5제안된 모델이 분류와 함께 세분화 및 탐지에서도 최첨단 아키텍처와 비교하여 어떤 성능을 보이는가?

주요 결과

주의 기반 풀링은 직접적인 패치 기여 가중치를 제공하여 해석 가능한 시각화를 가능하게 한다.
PatchConvNet은 많은 주의 기반 모델과 비교하여 메모리 사용량이 우수한 경쟁력 있는 Top-1 정확도를 제공한다.
더 높은 입력 해상도는 정확도를 향상시키며, 선형적인 메모리 증가를 보이고 무거운 피라미드 다운샘플링이 필요하지 않다.
학습된 풀링이 ResNet-50의 성능을 개선시키며 FLOPs 증가가 미미하게 나타난다.
ImageNet21k에서 사전 학습하고 더 높은 해상도로 미세 조정한 모델은 224-site 사전 학습 대비 향상된 정확도를 달성한다.
PatchConvNet은 의미론적 세분화(ADE20k) 및 객체 탐지(COCO)에서 주의 기반 베이스라인과 비슷한 FLOPs 및 메모리로 경쟁력 있는 결과를 얻는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.