[論文レビュー] DeepGaze II: Reading fixations from deep features trained on object recognition
DeepGaze II は SALICON で事前学習された固定の VGG-19 特徴に非線形読み出しを適用することで視線推定を予測し、基盤ネットワークの再学習なしで最先端の情報利得と MIT300 の AUC/sAUC を達成します。
Here we present DeepGaze II, a model that predicts where people look in images. The model uses the features from the VGG-19 deep neural network trained to identify objects in images. Contrary to other saliency models that use deep features, here we use the VGG features for saliency prediction with no additional fine-tuning (rather, a few readout layers are trained on top of the VGG features to predict saliency). The model is therefore a strong test of transfer learning. After conservative cross-validation, DeepGaze II explains about 87% of the explainable information gain in the patterns of fixations and achieves top performance in area under the curve metrics on the MIT300 hold-out benchmark. These results corroborate the finding from DeepGaze I (which explained 56% of the explainable information gain), that deep features trained on object recognition provide a versatile feature space for performing related visual tasks. We explore the factors that contribute to this success and present several informative image examples. A web service is available to compute model predictions at http://deepgaze.bethgelab.org.
研究の動機と目的
- オブジェクト認識からの固定深層特徴が、微調整なしで強力なサリエンシー空間として機能し得ることを実証する。
- ベンチマークデータセット上で、情報理論的な性能(説明可能情報利得)の定量化。
- MIT300 における性能を評価し、既存の視線推定モデルと比較する。
- 事前学習と特徴タイプが視線予測に与える影響を示す。
- 中心バイアスを明示的にモデル化し、予測への影響を評価する。
提案手法
- 共通解像度にマッピングされた VGG-19 の特徴 (conv5_1, relu5_1, relu5_2, conv5_3, relu5_4) を用いる。
- 固定された VGG 特徴の上に4層の 1x1 當み込み読み出しネットワークを訓練して、視線スコア O(x,y) を生成する。
- O(x,y) をガウス分布と畳み込み、その後中心バイアス事前分布を追加してソフトマックスを適用し、確率マップ p(x,y) を得る。
- 確率的なフレームワークを用いて最大尤度(対数尤度)で訓練し、評価指標として情報利得を用いる。
- SALICON で読出しを事前訓練し、その後 MIT1003 上で画像ごとのクロスバリデーションで微調整する;MIT300 の保持アウトセットで評価する。
- 1x1 の畳み込みを用いて、学習される特徴を VGG 特徴上の点ごとの非線形性に制限する。
実験結果
リサーチクエスチョン
- RQ1オブジェクト認識からの固定深層特徴(VGG-19)は、特徴抽出器を再訓練せずに、視線予測において強力で転移可能な空間を提供できるか?
- RQ2学習済みの読み出しを用いた事前学習済み深層特徴から、説明可能な情報利得のどの程度を視線モデルは達成できるか?
- RQ3事前学習(SALICON)と特徴選択(VGG 対 AlexNet)が視線性能に与える寄与は何か?
- RQ4中心バイアスを組み込んだ提案された確率的読み出しは、MIT300 のベンチマーク視線指標に対してどうであるか?
- RQ5DeepGaze II の予測と金標準の fixation を比較することで、どんな定性的洞察が得られるか?
主な発見
- DeepGaze II は MIT1003 のサブセットで説明可能な情報利得の 87% を占め、以前の DeepGaze I(56%)に大きく勝る。
- MIT300 では MIT Saliency Benchmark でトップの AUC および shuffle AUC を達成(中心バイアスを含めて 88% AUC、77% sAUC)。
- DeepGaze II はほぼ金標準の性能に達し、評価されたサブセットで基準中心バイアスより予測が劣る画像は1つもない。
- 事前学習済み VGG 特徴と SALICON の事前学習が DeepGaze I に対する性能向上の最大の要因である。
- VGG特徴を再訓練せずに強力な性能を維持し、小さな 1x1 読み出しと確率的定式化に依存する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。