QUICK REVIEW

[논문 리뷰] Spatially Adaptive Computation Time for Residual Networks

Michael Figurnov, Maxwell D. Collins|arXiv (Cornell University)|2016. 12. 07.

Visual Attention and Saliency Detection참고 문헌 39인용 수 25

한 줄 요약

이 논문은 공간적으로 적응형 계산 시간(SACT)을 제안하며, 이는 잔차 신경망에서 각 공간 위치에서 처리하는 잔차 블록의 수를 동적으로 조정함으로써 종단 간(end-to-end), 결정론적이고 문제에 관계없이 적용 가능한 계산 적응 기법을 가능하게 한다. SACT는 ImageNet과 COCO에서 FLOPs-mAP 효율성을 향상시키며, 명시적 색소성 감독 없이도 인간의 눈 정지 패턴과 강한 상관관계를 보이는 계산 정지 지도를 생성한다.

ABSTRACT

This paper proposes a deep learning architecture based on Residual Network that dynamically adjusts the number of executed layers for the regions of the image. This architecture is end-to-end trainable, deterministic and problem-agnostic. It is therefore applicable without any modifications to a wide range of computer vision problems such as image classification, object detection and image segmentation. We present experimental results showing that this model improves the computational efficiency of Residual Networks on the challenging ImageNet classification and COCO object detection datasets. Additionally, we evaluate the computation time maps on the visual saliency dataset cat2000 and find that they correlate surprisingly well with human eye fixation positions.

연구 동기 및 목표

깊은 잔차 신경망에서 더 나은 효율성을 위해 동적이고 공간적으로 변하는 계산을 가능하게 하는 방법을 개발하는 것.
아키텍처 수정 없이 공간 위치별로 계산을 적응시키는 종단 간 훈련이 가능하고 결정론적인 메커니즘을 만드는 것.
이식 분류 및 객체 검출을 포함한 다양한 비전 작업에서 작업 전용 재학습 없이 모델을 평가하는 것.
계산 정지 지도가 명시적 감독 없이도 인간의 시각적 주의를 반영하는지 평가하는 것.
적응형 계산이 최신 모델에서 FLOPs-정확도 트레이드오프를 향상시킬 수 있음을 보여주는 것.

제안 방법

SACT는 Adaptive Computation Time(ACT)을 잔차 신경망의 공간 위치 수준에서 작동하도록 확장하여, 각 위치에서의 계산 정지를 결정할 수 있도록 한다.
각 공간 위치에 대해, 잔차 유닛의 출력을 바탕으로 특징 표현이 '충분히 좋다'고 판단될 때 정지를 결정하는 학습 가능한 게이트 네트워크를 사용한다.
게이트 네트워크는 온도 조절된 시그모이드를 사용하여 정지 확률을 생성하고, 각 위치에서 처리되는 잔차 유닛의 수는 미분 가능한 샘플링 기법에 의해 결정된다.
모델은 역전파를 사용하여 종단 간 훈련되며, 총 계산 시간(ponder cost)은 하이퍼파rameter τ에 의해 정확도와 효율성 간 균형을 맞추기 위해 가중치가 적용된다.
특징 맵 정렬을 유지하여 세그멘테이션 및 객체 검출과 같은 다중 출력 작업과 같은 풀피xls 및 다중 출력 작업에 적합하다.
추론 중에 생성된 정지 비용 지ap은 추가 학습 없이도 색소성 지도로 사용된다.

실험 결과

연구 질문

RQ1적응형 계산이 잔차 신경망에서 공간적으로 적용되어 계산 효율성을 향상시킬 수 있는가?
RQ2명시적 감독 없이도 공간적으로 적응형 계산 메커니즘이 인간의 시각적 주의와 상관관계가 있는가?
RQ3SACT는 이미지 분류 및 객체 검출 작업에서 FLOPs-정확도 트레이드오프를 향상시킬 수 있는가?
RQ4SACT는 비적응형 ResNet과 ACT에 비해 mAP 및 FLOPs 측면에서 어떻게 성능을 내는가?
RQ5계산된 정지 비용 지도는 도메인 외부 이미지에서 효과적인 시각적 색소성 예측자로 기능할 수 있는가?

주요 결과

τ=0.005로 설정한 SACT는 ResNet-101의 56.0%의 FLOPs로 COCO 검증 세트에서 27.61 mAP를 달성하며, 더 높은 효율성으로 원본 ResNet-101(27.2 mAP)을 초월한다.
τ=0.001로 설정한 SACT는 72.4% FLOPs에서 29.04 mAP를 기록하며, 비적응형 ResNet-50(46.6% FLOPs에서 25.56 mAP)를 크게 능가한다.
ImageNet과 COCO에서 훈련된 SACT 모델은 색소성 예측에 잘 일반화되어 있으며, cat2000에서 84.6% AUC-Judd를 달성하여 중심 기준선(83.4%)을 초월하고 최신 기술인 DeepFix(테스트에서 87%)와 유사한 성능을 보였다.
SACT에서 생성된 정지 비용 지도는 인간의 눈 정지 패턴과 강한 상관관계를 보이며, 생물학적으로 타당한 주의 메커니즘을 학습했다는 것을 시사한다.
모델은 전체 특징 맵 정렬을 유지하여 객체 검출 및 세그멘테이션과 같은 조밀한 예측 작업에서 직접 사용할 수 있다.
모델은 완전히 미분 가능하고 종단 간 훈련이 가능하며, 계산을 유도하기 위한 히우리스틱이나 보조 네트워크가 필요 없다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.