QUICK REVIEW

[論文レビュー] Shallow and Deep Convolutional Networks for Saliency Prediction

Junting Pan, Kevin McGuinness|arXiv (Cornell University)|Mar 2, 2016

Visual Attention and Saliency Detection参考文献 35被引用数 132

ひとこと要約

この論文は、注視予測のためのエンドツーエンド CNN を二つ提示する。スクラッチから学習した浅いネットワークと、下層を転移学習で利用する深いネットワークを用い、複数の注視ベンチマークとデータセットで評価する。

ABSTRACT

The prediction of salient areas in images has been traditionally addressed with hand-crafted features based on neuroscience principles. This paper, however, addresses the problem with a completely data-driven approach by training a convolutional neural network (convnet). The learning process is formulated as a minimization of a loss function that measures the Euclidean distance of the predicted saliency map with the provided ground truth. The recent publication of large datasets of saliency prediction has provided enough data to train end-to-end architectures that are both fast and accurate. Two designs are proposed: a shallow convnet trained from scratch, and a another deeper solution whose first three layers are adapted from another network trained for classification. To the authors knowledge, these are the first end-to-end CNNs trained and tested for the purpose of saliency prediction.

研究の動機と目的

CNN を用いたデータ主導の注視予測へと手法を移行する。
二つのエンドツーエンドアーキテクチャを開発・比較する（浅いネットワークはスクラッチ、深いネットワークは転移学習を利用）。
複数の大規模・ベンチマークデータセットにおける注視予測性能を評価する。
浅いモデルと深いモデルのメモリ要件と学習上の考慮点を分析する。

提案手法

浅い convnet：五つの学習可能層（三つの畳み込み層、二つの全結合層）、SALICON および iSUN データセット上でスクラッチから学習；パラメータ数は 64.4M；出力注視マップは入力サイズにリサイズされ、Gaussian 後処理を適用。
深い convnet：最初の三層を事前学習済み VGG_M から初期化した十層の重み、注視マップを作成するデコンボリューション層を持つ；SALICON データでユークリッド損失を用いて訓練；正則化のため転移学習を使用。
訓練の詳細：SGD with Nesterov momentum、学習率スケジューリング、SALICON の訓練/検証分割 80/20、入力を 320x240 にダウンサンプリング、バッチサイズ 2、24k イテレーション、入力とターゲットを平均中心化、標準的な L2 ウェイト減衰。
評価：MIT Saliency Benchmark、LSUN チャレンジ、SALICON、iSUN、MIT300 データセットで評価；メモリ使用量と推論に関する考慮事項を議論。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドの CNN は手工特徴量と比較してピクセル単位の注視マップを効果的に予測できるか。
RQ2浅いネットワーク（スクラッチ）と深い転移学習ネットワークの注視予測性能はどう比較されるか。
RQ3データが限られている場合、分類ネットの転移学習は注視予測を改善するか。
RQ4提案モデルは異なる注視データセットとベンチマーク全体でどれだけ一般化するか。

主な発見

二つのアーキテクチャは標準的な注視ベンチマークで競争力のある結果を達成している（例：iSUN バリデーション AUC：Deep 0.63、Shallow 0.64；表 4 に Judd/ Borji/ shuffled 変種を示す）。
浅い convnet は 2015 年の LSUN 注視予測チャレンジで優勝し、SALICON および iSUN テストセットでいくつかのベースラインを上回った。
MIT300 では深い convnet が DeepGaze 1 に匹敵する性能を達成する一方、浅い convnet はベンチマークセット全体で依然として高いトップパフォーマンスを示す。
深いネットワークは事前学習済み VGG_M から下層畳み込み層を転送することで正則化と最終的な注視予測品質を改善する。
浅いネットワークは層数が少ないがパラメータ数は多く（全結合層の影響）、推定時の処理速度が速く、空間的バイアス（中心傾向）も異なる。
メモリ分析はトレードオフを示す：浅いネットワークはパラメータ数が多いがブロブデータのメモリは低く、大規模バッチでのテストを可能にする。一方、深いネットワークはパラメータ数が少なくとも中間データの要件が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。