Skip to main content
QUICK REVIEW

[論文レビュー] Faster gaze prediction with dense networks and Fisher pruning

Lucas Theis, Iryna Korshunova|arXiv (Cornell University)|Jan 17, 2018
Visual Attention and Saliency Detection参考文献 4被引用数 138
ひとこと要約

本論文は、Fisher pruningを用いて視線予測モデルから冗長な特徴マップとパラメータを貪欲に削除し、剪定と知識蒸留を組み合わせることで、saliency性能をほぼ変えずに約10倍のCPUスピードアップを達成します。

ABSTRACT

Predicting human fixations from images has recently seen large improvements by leveraging deep representations which were pretrained for object recognition. However, as we show in this paper, these networks are highly overparameterized for the task of fixation prediction. We first present a simple yet principled greedy pruning method which we call Fisher pruning. Through a combination of knowledge distillation and Fisher pruning, we obtain much more runtime-efficient architectures for saliency prediction, achieving a 10x speedup for the same AUC performance as a state of the art network on the CAT2000 dataset. Speeding up single-image gaze prediction is important for many real-world applications, but it is also a crucial step in the development of video saliency models, where the amount of data to be processed is substantially larger.

研究の動機と目的

  • 転移学習されたサリエンシー・ネットワークの過剰パラメータ化によるより高速な視線予測モデルの必要性を動機づける。
  • 冗長な特徴マップ/パラメータを除去する原理的な剪定法(Fisher pruning)を開発する。
  • 剪定と知識蒸留を組み合わせて、実行時の性能を維持しつつ実行時間を短縮する。
  • パフォーマンスと計算コストのバランスをとるための調整可能なトレードオフパラメータを提供する。
  • エンドツーエンドの訓練と剪定がサリエンシー・ベンチマークで競争力のある、あるいはそれを上回る汎化性能を生み出せることを示す。

提案手法

  • VGGまたはDenseNetのバックボーンとリードアウトネットワークを用いてサリエンシ-mapを生成するDeepGaze IIをベースとする。
  • Fisher pruningを導出する:二次近似とFisher情報量を用いてパラメータを除去したときの損失増加を推定する(Equation 7)。
  • 各マップの勾配を集約して全特徴マップを剪定する方法に拡張する(Δk)。
  • クロスエントロピー損失と計算コストをβパラメータでトレードオフするコストペナルティ付き目的関数を導入する(Equation 12)。
  • 特徴の結合剪定信号が負になる特徴を剪定するようβを自動調整する(Equation 14–15)。
  • DeepGaze IIモデルのアンサンブルからの知識蒸留で訓練し、剪定中の特徴表現を改善し微調整を行う。

実験結果

リサーチクエスチョン

  • RQ1Fisher pruningは勾配に基づく principled な基準を提供して、再訓練なしでサリエンシーを剪定できるか。
  • RQ2標準的なベンチマークで性能を劣化させることなく、特徴マップとパラメータのどの程度まで剪定できるか。
  • RQ3計算コストペナルティ(β)を組み込むことで、サリエンシー性能を維持しつつより効率的なアーキテクチャが得られるか。
  • RQ4剪定した過剰パラメータのサリエンシーモデルを微調整する際、知識蒸留は性能回復に役立つか。
  • RQ5剪定によるFastGazeとDenseGazeのランタイムと精度の比較的トレードオフはどうなるか。

主な発見

  • Fisher pruningは競争力のあるサリエンシー性能を維持しつつ、計算を大幅に削減し、CAT2000で同等のAUCに対して約10倍のCPUスピードアップを達成。
  • 剪定時の計算コストの正則化は、正則化しない方法より性能を改善し、剪定中の特徴マップコストの更新は有益である。
  • 剪定されたFastGazeとDenseGazeは、DeepGaze IIと同等かそれ以上の指標(対数尤度、NSS、SIM、AUC)でCAT2000へ一般化する。
  • DenseGazeは剪定後により高いAUCを達成する一方、FastGazeはより単純な構成のため実行時間が速い。
  • DeepGaze IIのアンサンブルからの知識蒸留による訓練は、剪定モデルの微調整と性能維持に役立つ。
  • 重く剪定されたモデルはDeepGaze IIと比較して最大39xの速度アップを達成でき、サリエンシー・マップは顔やテキストなどの重要な構造を依然とらえる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。