QUICK REVIEW

[논문 리뷰] Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer

Sergey Zagoruyko, Nikos Komodakis|arXiv (Cornell University)|2016. 12. 12.

Visual Attention and Saliency Detection인용 수 1,542

한 줄 요약

이 논문은 CNN에서 공간 주의 맵을 정의하고 이를 사용해 강한 교사로부터 약한 학생으로 주의력을 전달하여 CIFAR, ImageNet 및 미세조정 작업 전반에서 성능 향상을 이끌어내며, 활성 기반 주의 전달(AT)이 전체 활성 전달보다 우수하고 많은 경우 지식 증류와 시너지 효과를 보입니다.

ABSTRACT

Attention plays a critical role in human visual experience. Furthermore, it has recently been demonstrated that attention can also play an important role in the context of applying artificial neural networks to a variety of tasks from fields such as computer vision and NLP. In this work we show that, by properly defining attention for convolutional neural networks, we can actually use this type of information in order to significantly improve the performance of a student CNN network by forcing it to mimic the attention maps of a powerful teacher network. To that end, we propose several novel methods of transferring attention, showing consistent improvement across a variety of datasets and convolutional neural network architectures. Code and models for our experiments are available at https://github.com/szagoruyko/attention-transfer

연구 동기 및 목표

네트워크 간 지식 전달 신호로서 주의의 사용을Motivate합니다.
CNN에 대한 활성 기반 및 그래디언트 기반 공간 주의 맵을 정의합니다.
다양한 아키텍처와 데이터셋에서 여러 주의 전달 메커니즘을 제안하고 평가합니다.
주의 전달과 표준 지식 증류 및 미세조정의 상호 작용을 조사합니다.
주의 전달이 최종 정확도와 수렴 속도를 개선할 수 있음을 입증합니다.

제안 방법

공간적 범위에 걸쳐 채널 활성화를 집계하여 활성 기반 공간 주의 맵을 정의합니다(예: 절댓값 합, 거듭제곱의 합, 또는 거듭제곱의 최대).
손실에 대한 입력의 그래디언트로 그래디언트 기반 주의를 정의하며, 입력 민감도를 나타냅니다.
AT 손실 항으로 학생과 교사 주의 맵 간의 거리(l2-노름)를 최소화하여 주의 맵을 정규화합니다.
필요 시 지식 증류 손실 항을 추가하여 AT를 표준 지식 증류와 결합합니다.
또한 그래디언트 기반 AT를 위한 두 번째 역전파 단계를 적용하고 그래디언트에 대해 수평 반전 불변성을 강제할 수 있습니다.
여러 CNN 아키텍처(NIN, ResNet, WRN)와 데이터셋(CIFAR-10, ImageNet, Scenes, CUB)에서 AT 및 그래디언트 기반 AT를 평가합니다.
활성 기반 AT가 전체 활성 전달에 비해 최종 정확도 향상과 수렴 속도 면에서 더 나은 성능을 제공하는지 비교합니다.

실험 결과

연구 질문

RQ1CNN에서 교사에서 학생으로의 효과적인 지식 전달 신호를 가능하게 하는 공간 주의 맵을 정의할 수 있을까요?
RQ2활성 기반 주의 맵이 전체 활성 전달보다 더 나은 전달 신호를 제공합니까?
RQ3활성 기반 및 그래디언트 기반 주의 전달은 다양한 아키텍처와 데이터셋에서 어떻게 수행됩니까?
RQ4주의 전달이 표준 지식 증류를 보완하거나 대체할 수 있으며 수렴 속도에 어떤 영향을 줍니까?
RQ5이미지넷과 같은 대규모 데이터셋 및 미세/장면 분류 작업에서 주의 전달이 유익합니까?

주요 결과

활성 기반 주의 전달(AT)은 CIFAR 및 더 큰 데이터셋에서 일관되게 학생의 성능을 기준선보다 향상시킵니다.
활성 기반 AT는 일반적으로 전체 활성 전달보다 우수하며 더 빠른 수렴과 더 나은 최종 정확도를 제공합니다.
AT는 여러 설정에서 추가로 성능을 개선하기 위해 지식 증류(KD)와 효과적으로 결합될 수 있습니다(AT+KD).
그래디언트 기반 AT 역시 성능 향상을 가져오며, 대칭 노름과 이중 역전파가 특정 훈련 조건에서 강력한 결과를 보입니다.
ImageNet에서 ResNet-18을 학생으로, ResNet-34를 교사로 사용할 때 검증 정확도에서 top-1 1.1% 및 top-5 0.8% 향상을 달성하였습니다.
AT 전송은 미세(예:CUB) 및 장면(Scenes) 데이터셋에서 사전 학습된 모델을 미세 조정할 때도 여전히 유익하며 작은 네트워크와 큰 네트워크 간의 격차를 줄입니다.
선택된 잔차 그룹에 AT 손실을 추가하면 모든 경우에 KD를 요구하지 않고도 전이 효과를 크게 향상시킬 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.