[논문 리뷰] Faster gaze prediction with dense networks and Fisher pruning
논문은 Fisher pruning을 도입하여 gaze-예측 모델에서 중복된 feature map과 매개변수를 탐욕적으로 제거하고, pruning과 knowledge distillation을 결합하여 대략 10x CPU 속도 향상을 달성하면서 saliency 성능은 비슷하게 유지한다.
Predicting human fixations from images has recently seen large improvements by leveraging deep representations which were pretrained for object recognition. However, as we show in this paper, these networks are highly overparameterized for the task of fixation prediction. We first present a simple yet principled greedy pruning method which we call Fisher pruning. Through a combination of knowledge distillation and Fisher pruning, we obtain much more runtime-efficient architectures for saliency prediction, achieving a 10x speedup for the same AUC performance as a state of the art network on the CAT2000 dataset. Speeding up single-image gaze prediction is important for many real-world applications, but it is also a crucial step in the development of video saliency models, where the amount of data to be processed is substantially larger.
연구 동기 및 목표
- 전이 학습된 saliency 네트워크의 과도한 매개변수화로 인해 더 빠른 gaze prediction 모델의 필요성을 제시한다.
- 중복된 feature map/매개변수를 제거하기 위한 원리 있는 가지치기 방법(Fisher pruning)을 개발한다.
- 런타임을 줄이면서 성능을 유지하기 위해 pruning과 knowledge distillation을 결합한다.
- 조정 가능한 트레이드오프 매개변수를 통해 성능과 계산 비용의 균형을 맞추는 프레임워크를 제공한다.
- 끝에서 끝까지의 학습과 pruning이 saliency 벤치마크에서 경쟁력 있거나 더 우수한 일반화 성능을 낼 수 있음을 시연한다.
제안 방법
- DeepGaze II 모델을 VGG 또는 DenseNet 백본과 readout 네트워크로 구성하여 saliency 맵을 생성한다.
- Fisher pruning을 유도한다: 2차 근사와 Fisher 정보량(Equation 7)을 사용하여 매개변수를 제거할 때 손실 증가를 추정한다.
- per-map 그래디언트를 모아 전체 feature map을 가지치기에 확장한다(Δk).
- 교차 엔트로피 손실과 계산 비용을 beta 매개변수로 트레이드오프하는 비용 페널티가 있는 목적 함수를 도입한다(Equation 12).
- 결합된 pruning 신호가 음수인 특징을 가지치기하기 위해 beta를 자동으로 조정하는 방법을 제안한다(Equation 14–15).
- DeepGaze II 모델 앙상블로부터의 knowledge distillation으로 학습하여 특징 표현을 개선하고 pruning 중에 파인튜닝한다.
실험 결과
연구 질문
- RQ1Fisher pruning이 재학습 없이도 saliency를 위한 신경망 구성요소를 가지치기하기 위한 원리적이고 기울기 기반의 기준을 제공할 수 있는가?
- RQ2표준 벤치마크에서 성능을 저하시키지 않으면서 feature map과 매개변수 차원에서 얼마나 많이 가지치기할 수 있는가?
- RQ3계산 비용 페널티(beta)를 도입하면 saliency 성능을 유지하면서 더 효율적인 아키텍처를 얻을 수 있는가?
- RQ4지나치게 매개변수가 많은(pruned, over-parameterized) saliency 모델을 미세 조정할 때 knowledge distillation이 성능 회복에 도움을 주는가?
- RQ5 pruning 하에서 FastGaze와 DenseGaze의 런타임과 정확도 사이에 어떤 비교 우위가 있는가?
주요 결과
- Fisher pruning은 유의미한 계산 감소에도 불구하고 경쟁력 있는 saliency 성능을 제공하며 CAT2000에서 유사한 AUC에 대해 약 10x CPU 속도 향상을 달성한다.
- 가지치기 중 계산 비용을 정규화하는 것이 비정규화 방법보다 성능을 향상시키고 가지치기 중 피처 맵 비용의 업데이트가 유리하다.
- Pruned FastGaze 및 DenseGaze 모델은 로그 가능도(NLL), NSS, SIM 등의 메트릭에서 DeepGaze II와 비교해 또는 더 우수하게 CAT2000에 일반화하며 AUC도 유지하거나 향상시킨다.
- DenseGaze는 가지치기와 함께 더 높은 AUC를 달성하고, FastGaze는 더 간단한 아키텍처로 실행 속도가 빠르다.
- DeepGaze II 앙상블로부터의 knowledge distillation으로 가지치기된 모델의 파인튜닝과 성능 유지에 도움이 된다.
- 강하게 가지치된 모델은 DeepGaze II 대비 최대 39x의 속도 향상을 달성할 수 있으며 saliency 맵은 여전히 얼굴과 텍스트 같은 핵심 구조를 포착한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.