[論文レビュー] Exploring Human-like Attention Supervision in Visual Question Answering
本稿では、VQA-HATデータセットを用いて学習することで、視覚質問応答(VQA)のための人のような注目マップを生成する人間注目ネットワーク(HAN)を提案する。VQA v2.0のための「人のような注目(HLAT)」データセットを構築する。これらの人のような注目マップを監視信号として用いることで、注目精度が向上し、無監視ベースラインと比較して全体のVQA精度が0.15%絶対的に向上する。
Attention mechanisms have been widely applied in the Visual Question Answering (VQA) task, as they help to focus on the area-of-interest of both visual and textual information. To answer the questions correctly, the model needs to selectively target different areas of an image, which suggests that an attention-based model may benefit from an explicit attention supervision. In this work, we aim to address the problem of adding attention supervision to VQA models. Since there is a lack of human attention data, we first propose a Human Attention Network (HAN) to generate human-like attention maps, training on a recently released dataset called Human ATtention Dataset (VQA-HAT). Then, we apply the pre-trained HAN on the VQA v2.0 dataset to automatically produce the human-like attention maps for all image-question pairs. The generated human-like attention map dataset for the VQA v2.0 dataset is named as Human-Like ATtention (HLAT) dataset. Finally, we apply human-like attention supervision to an attention-based VQA model. The experiments show that adding human-like supervision yields a more accurate attention together with a better performance, showing a promising future for human-like attention supervision in VQA.
研究の動機と目的
- 大規模なVQAデータセットにおける人間によるアノテーション付き注目マップの不足を解消すること。
- 人間の注目パターンが注目ベースのVQAモデルの性能を向上させることを調査すること。
- VQA向けにスケールに応じた合成的で人のような注目マップを生成する手法を開発すること。
- 明示的な人のような注目監視がVQAモデルの性能向上に寄与するかを評価すること。
- HLATデータセットを構築し、VQAにおける注目監視のベンチマークとして公開すること。
提案手法
- 画像と質問のペアから人のような注目マップを予測するため、VQA-HATデータセット上で人間注目ネットワーク(HAN)を学習する。
- 複数の注目マップを事前学習済みのVQAモデルから得たものを、ゲート付き再帰ユニット(GRU)を用いて統合し、洗練された人のような注目マップに変換する。
- 事前学習済みのHANをVQA v2.0データセット全体に適用し、大規模な人のような注目マップデータセット(HLAT)を生成する。
- 注目ベースのVQAモデルの学習時に、HLATデータセットを真値の監視信号として用いる。
- 注目監視ありとなしの両方でVQAモデルを学習し、性能を比較する。
- 標準的なVQA精度指標(共通認識ベースのスコアリングを含む)を用いてモデル性能を評価する。
実験結果
リサーチクエスチョン
- RQ1人間の注目パターンは、注目ベースのVQAモデルの性能を向上させることができるか?
- RQ2人間が注目した領域は、質問に答えるためにより正確で関連性の高い視覚的特徴を示しているか?
- RQ3限られた人間アノテーションデータから、深層学習モデルが人のような注目マップを生成できるか?
- RQ4合成された人のような注目マップによる明示的監視は、より良い注目局所化と高いVQA精度をもたらすか?
- RQ5注目マップの品質が、数え上げや推論タスクなどの複雑な質問を解く能力にどのように影響するか?
主な発見
- 2回のグリムプスを使用した場合、人のような注目監視を施したVQAモデルは、無監視ベースラインと比較して全体の精度が0.15%絶対的に向上した。
- 1回のグリムプスを使用した場合、監視ありモデルは無監視モデルと比較して0.11%の精度向上を示した。
- 監視ありモデルが生成した注目マップは、可視化により関連する画像領域に的を射ており、より正確であることが確認された。
- 注目マップをエンコードするためにGRUを用いたHANモデルは、GRUを用いないバージョンよりも優れた性能を示し、順序モデリングによる注目マップの洗練効果が裏付けられた。
- HANを用いて生成されたHLATデータセットは、VQA向けの大規模な合成的で人のような注目マップリソースを提供しており、研究利用のために公開された。
- 監視ありモデルは、数え上げの質問に対して顕著に高い精度を示し、複雑な推論タスクにおける注目精度の向上が裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。