[논문 리뷰] Residual Attention Network for Image Classification
논문은 Residual Attention Network를 소개하며, bottom-up top-down 마스크 분기와 어텐션 잔여 학습을 누적하여 매우 깊은 네트워크를 가능하게 하면서 최첨단 이미지 분류 성능을 달성한다. CIFAR-10/100과 ImageNet에서 계산량을 감소시키며 강력한 결과를 보여준다.
In this work, we propose "Residual Attention Network", a convolutional neural network using attention mechanism which can incorporate with state-of-art feed forward network architecture in an end-to-end training fashion. Our Residual Attention Network is built by stacking Attention Modules which generate attention-aware features. The attention-aware features from different modules change adaptively as layers going deeper. Inside each Attention Module, bottom-up top-down feedforward structure is used to unfold the feedforward and feedback attention process into a single feedforward process. Importantly, we propose attention residual learning to train very deep Residual Attention Networks which can be easily scaled up to hundreds of layers. Extensive analyses are conducted on CIFAR-10 and CIFAR-100 datasets to verify the effectiveness of every module mentioned above. Our Residual Attention Network achieves state-of-the-art object recognition performance on three benchmark datasets including CIFAR-10 (3.90% error), CIFAR-100 (20.45% error) and ImageNet (4.8% single model and single crop, top-5 error). Note that, our method achieves 0.6% top-1 accuracy improvement with 46% trunk depth and 69% forward FLOPs comparing to ResNet-200. The experiment also demonstrates that our network is robust against noisy labels.
연구 동기 및 목표
- 혼합 주의 메커니즘을 통합하여 특징 구별력을 개선하는 심층 컨볼루션 네트워크를 동기 부여하고 개발한다.
- trunk features를 가중치 softly하게 할당하기 위한 bottom-up top-down 마스크 분기가 있는 주의 모듈을 도입한다.
- 매우 깊은 네트워크의 학습을 가능하게 하여 저하를 완화하는 어텐션 잔여 학습을 도입한다.
- 훈련 중에 노이즈가 섞인 라벨에 대한 강건성과 ResNet 및 관련 아키텍처에 비해 매개변수 효율이 개선되었음을 보인다.
제안 방법
- 각 모듈이 마스크 분기와 트렁크 분기를 가지는 Residual Attention Network를 구성하기 위해 Attention Modules를 스택한다.
- 마스크 분기에서 bottom-up top-down 피드포워드 구조를 사용하여 [0,1] 범위의 어텐션 마스크 M(x)를 생성한다.
- 정보를 보존하고 그래디언트 흐름을 개선하기 위해 어텐션 잔여 학습: H(x) = (1 + M(x)) * F(x) 를 적용한다.
- 혼합 주의, 채널 주의, 공간 주의 활성화를 실험한다; 혼합 주의가 가장 우수한 것으로 선택한다.
- 트렁크 유닛을 ResNet/ResNeXt/Inception 변형으로 교체하여 아키텍처 호환성 및 효율성을 보여준다.
- CIFAR-10, CIFAR-100, ImageNet에서 평가한다; ResNet, WRN, 및 기타 베이스라인과 비교한다.
실험 결과
연구 질문
- RQ1Stacked Attention Modules with bottom-up top-down masks가 기본 심층 네트워크를 넘는 이미지 분류 성능을 향상시키는가?
- RQ2어텐션 잔여 학습이 수백 개의 층에서도 성능 저하 없이 학습을 가능하게 하는가?
- RQ3다른 주의 활성화(혼합, 채널, 공간)가 분류 정확도에 어떤 영향을 미치는가?
- RQ4Residual Attention Network가 CIFAR-10/100 및 ImageNet에서 최첨단 방법과 비교하여 정확도와 효율성 측면에서 어떤 성능을 보이는가?
- RQ5학습 중 노이즈가 있는 라벨에 대해 이 접근법이 얼마나 강건한가?
주요 결과
- Attention Residual Learning은 Attention Modules의 수가 증가함에 따라 일관되게 성능을 향상시킨다.
- 혼합 주의 활성화가 CIFAR-10에서 테스트 옵션 중 최상의 정확도를 제공한다.
- Attention-452는 CIFAR-10에서 3.90% 오차율, CIFAR-100에서 20.45%를 달성하며 일부 ResNet 벤치마크보다 매개변수 및 FLOPs가 현저히 적다.
- ImageNet에서 Attention-56과 Attention-92는 단일 크롭 평가에서 여러 ResNet/ResNeXt/Inception 벤치마크를 능가하고, FLOPs 및 매개변수도 더 낮거나 비슷하다.
- 네트워크는 소프트 마스크 분기에 의한 그래디언트 필터링으로 노이즈 라벨에 대한 강건함을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.