QUICK REVIEW

[論文レビュー] Seeing with Humans: Gaze-Assisted Neural Image Captioning

Yusuke Sugano, Andreas Bulling|arXiv (Cornell University)|Aug 18, 2016

Multimodal Machine Learning Applications参考文献 55被引用数 49

ひとこと要約

本稿では、LSTMに基づくキャプション生成アーキテクチャ内に、分割された注目メカニズムを統合した、人間の注視データを活用する神経的画像キャプション生成モデルを提案する。注視された領域と注視されない領域の両方に対して選択的に注目することで、COCO/SALICON上でキャプション生成性能が向上し、人間の注視が機械的注目を補完し、全体的なシーン理解を高めることを示している。

ABSTRACT

Gaze reflects how humans process visual scenes and is therefore increasingly used in computer vision systems. Previous works demonstrated the potential of gaze for object-centric tasks, such as object localization and recognition, but it remains unclear if gaze can also be beneficial for scene-centric tasks, such as image captioning. We present a new perspective on gaze-assisted image captioning by studying the interplay between human gaze and the attention mechanism of deep neural networks. Using a public large-scale gaze dataset, we first assess the relationship between state-of-the-art object and scene recognition models, bottom-up visual saliency, and human gaze. We then propose a novel split attention model for image captioning. Our model integrates human gaze information into an attention-based long short-term memory architecture, and allows the algorithm to allocate attention selectively to both fixated and non-fixated image regions. Through evaluation on the COCO/SALICON datasets we show that our method improves image captioning performance and that gaze can complement machine attention for semantic scene understanding tasks.

研究の動機と目的

人間の注視が、物体中心の応用を超えて、シーン中心のタスク（例：画像キャプション）の性能向上に寄与するかどうかを調査すること。
人間の注視、深層学習ベースの認識モデル、およびボトムアップ視覚的顕著性との関係を分析すること。
注視された領域と注視されない領域の両方を活用する分割注目メカニズムを用いて、新たな注視支援型画像キャプションモデルを開発すること。
大規模ベンチマーク上で、提案モデルの性能をベースラインの注目モデルおよび顕著性ベースのモデルと比較して評価すること。
注視が、視覚言語タスクにおける注目メカニズムの指導信号としての可能性を検討すること。

提案手法

SALICONデータセットからの注視データを用い、人間の注視を画像上の空間的ヒートマップとして表現する。
注視された領域に注目するブランチと、注視されない領域に注目するブランチに分ける、分割注目メカニズムを提案する。
事前学習済みの畳み込みニューラルネットワーク（例：VGG-19）からの畳み込み特徴と、注視ヒートマップを統合し、LSTMベースのキャプション生成ネットワークでの注目を誘導する。
注視ベースの注目マップとボトムアップ注目マップの重み付き融合を用いて、画像全体にわたり動的に注目を割り当てる。
ビームサーチデコードを用いた交差エントロピー損失により、エンドツーエンドのモデルを訓練する。
マルチスケール特徴表現を活用し、顕著でない物体の局所化を向上させる。

実験結果

リサーチクエスチョン

RQ1最新の物体認識およびシーン認識モデルと比較して、人間の注視はボトムアップ顕著性よりも、重要な領域とどの程度相関しているか？
RQ2ボトムアップ顕著性が達成可能な範囲を超えて、注視情報が注目ベースの画像キャプションモデルの性能向上に寄与できるか？
RQ3注視データの統合により、人間の注視を惹かないが意味的に重要な画像領域に注目できるか？
RQ4注視支援型注目は、標準的な注目メカニズムおよび顕著性ベースのモデルと比較して、画像キャプションタスクでどの程度優れているか？
RQ5特にごみだらけのシーンにおいて、人間の注視を惹かない物体を注視支援型モデルが説明できるか？

主な発見

人間の注視は、ボトムアップ顕著性モデルと比較して、物体認識モデルにとって重要な領域と強く相関しており、意味的注目において価値があることが示唆される。
提案された注視支援型モデルは、COCO/SALICONデータセット上でベースラインの注目モデルを上回る画像キャプション生成性能を達成し、最新の顕著性ベースのモデルと同等の向上を示している。
注視を惹かない物体（例：スノーボード、スキー）に対しても、モデルが適切な記述を生成できており、注視の外側に注目できる能力を示している。
分割注目メカニズムにより、『キーホルダー』『ナイフ』『傘』『消火栓』といった小さな意味的重要な物体の語の発見が向上し、Fスコアの向上が確認された。
背景のシーンカテゴリ（例：『塔』『テーブル』『滑走路』）および文脈関連語（例：『夜』『試合』）では性能がわずかに低下しており、グローバルな文脈を捉える能力に限界があることが示唆された。
モデルの挙動は、特に中心部と周辺部の画像要因を切り替える際の人間の視覚的認識に近いものとなっており、定性的な例から明らかである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。