Skip to main content
QUICK REVIEW

[論文レビュー] Multiple Object Recognition with Visual Attention

Jimmy Ba, Volodymyr Mnih|arXiv (Cornell University)|Dec 24, 2014
Advanced Image and Video Retrieval Techniques参考文献 6被引用数 701
ひとこと要約

本稿では、強化学習を用いて順次関連する画像領域に注目する深層再帰的注目モデル(DRAM)を提案する。このモデルは、より少ないパラメータと計算量で、特に大きく、あまりクロップされていない画像においても、SOTAの畳み込みニューラルネットワーク(ConvNets)を上回る性能を発揮する。

ABSTRACT

We present an attention-based model for recognizing multiple objects in images. The proposed model is a deep recurrent neural network trained with reinforcement learning to attend to the most relevant regions of the input image. We show that the model learns to both localize and recognize multiple objects despite being given only class labels during training. We evaluate the model on the challenging task of transcribing house number sequences from Google Street View images and show that it is both more accurate than the state-of-the-art convolutional networks and uses fewer parameters and less computation.

研究の動機と目的

  • 大規模な画像を処理する際の畳み込みニューラルネットワーク(ConvNets)のスケーラビリティおよび効率性の制限を克服すること。
  • トレーニング中にクラスラベルのみを用いて、オブジェクトの局所化と認識を統合的にエンドツーエンドで学習可能なモデルを実現すること。
  • 可変な入力サイズにスケーリング可能で、可変長のオブジェクトシーケンスを処理できる柔軟で効率的なアーキテクチャを開発すること。
  • 標準的なConvNetsと比較して、現実世界の不完全な画像データ(例:大きく、あまりクロップされていない画像)に対して、より高い性能を発揮すること。

提案手法

  • 各時刻に多スケールの画像クロップ(ゲイプス)を処理する深層再帰ニューラルネットワークを用いる。
  • ラベルシーケンスの対数尤度の変分下界を最大化するように、強化学習によりモデルを訓練する。
  • 注目した画像領域から特徴を抽出するゲイプスネットワークと、次回のゲイプス位置を決定する再帰的コントローラーを採用する。
  • ポリシーネットワークによりゲイプスの位置を出力し、必要に応じてオブジェクトクラスを予測する。このプロセスは、さらにオブジェクトが検出されないまで繰り返される。
  • 一般化を向上させ、過学習を軽減するために、トレーニング中にゲイプスポリシーに確率性を導入する。
  • 大規模な画像に対しては、以前に注目した位置の周囲のクロップ領域を再適用することで、再トレーニングなしにモデルを適応可能にする。

実験結果

リサーチクエスチョン

  • RQ1エンドツーエンドでトレーニング可能なモデルは、クラスレベルの監視のみを用いて、画像内の複数のオブジェクトを局所化および認識できるか?
  • RQ2特に大規模または不適切にクロップされた画像において、注目ベースのアプローチが標準的なConvNetsを上回る正確性と効率性を発揮するか?
  • RQ3きついクロップが施された画像で学習したモデルは、再トレーニングなしに、より大きく、あまりクロップされていない入力に一般化できるか?
  • RQ4さまざまな画像サイズにおいて、注目モデルの計算コストとパラメータ効率は、深層ConvNetsと比較してどの程度か?
  • RQ5標準的な正則化手法と比較して、確率的ゲイプスポリシーは、一般化をどの程度向上させ、過学習をどの程度軽減するか?

主な発見

  • DRAMモデルは、マルチデジットSVHN認識タスクでSOTAの性能を達成し、きついクロップ処理を施した画像およびより大きく、あまりクロップされていない画像の両方で、最良のConvNetsを上回る。
  • 54x54のクロップ画像において、DRAMモデルは最良のConvNetsと同等のテスト誤差率を達成するが、顕著に少ないパラメータ数と低い計算コストを実現する。
  • 110x110に拡大された画像において、DRAMモデルは微調整済みConvNetを大きく上回り、画像スケールおよびノイズに対して優れたロバストネスを示す。
  • DRAMモデルは、大規模な画像で微調整するのに数時間しかかからず、10層のConvNetは、再トレーニングから始めるのに約1週間を要する。
  • モデルの計算コストは入力画像サイズに依存しないため、選択されたゲイプスのみを処理するため、大規模な入力に対して非常に効率的である。
  • DRAMモデルはConvNetsよりも過学習しにくく、ドロップアウトによる性能向上は僅か0.1%にとどまるが、ConvNetは5.5%の誤差率に達するため、重いドロップアウトが必要となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。