QUICK REVIEW

[論文レビュー] VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation

Chuang Gan, Yandong Li|arXiv (Cornell University)|Aug 15, 2017

Multimodal Machine Learning Applications参考文献 42被引用数 26

ひとこと要約

本稿では、COCOのインスタンスセグメンテーションをVQAの質問と回答と結びつけることで、VQAにおける教師あり注目（attention）を可能にするVQS（Visual Questions and Segmentation Answers）データセットを紹介する。また、質問に焦点を当てたセマンティックセグメンテーション（QFSS）という新たなタスクを提案する。セグメンテーション-QAのリンクを明示的な教師信号として用いることで、VQAの実際の複数選択問題ベンチマークで最先端の性能を達成し、マスクアグリゲーションとDeconvNetベースのモデルを用いたQFSSの実現可能性を示した。

ABSTRACT

Rich and dense human labeled datasets are among the main enabling factors for the recent advance on vision-language understanding. Many seemingly distant annotations (e.g., semantic segmentation and visual question answering (VQA)) are inherently connected in that they reveal different levels and perspectives of human understandings about the same visual scenes --- and even the same set of images (e.g., of COCO). The popularity of COCO correlates those annotations and tasks. Explicitly linking them up may significantly benefit both individual tasks and the unified vision and language modeling. We present the preliminary work of linking the instance segmentations provided by COCO to the questions and answers (QAs) in the VQA dataset, and name the collected links visual questions and segmentation answers (VQS). They transfer human supervision between the previously separate tasks, offer more effective leverage to existing problems, and also open the door for new research problems and models. We study two applications of the VQS data in this paper: supervised attention for VQA and a novel question-focused semantic segmentation task. For the former, we obtain state-of-the-art results on the VQA real multiple-choice task by simply augmenting the multilayer perceptrons with some attention features that are learned using the segmentation-QA links as explicit supervision. To put the latter in perspective, we study two plausible methods and compare them to an oracle method assuming that the instance segmentations are given at the test stage.

研究の動機と目的

COCOにおけるインスタンスセグメンテーションとQAペアを明示的にリンクさせることで、セマンティックセグメンテーションと視覚的質疑応答（VQA）の間のギャップを埋めること。
セグメンテーション-QAのリンクを注目メカニズムの教師信号として用いることで、VQAにおける教師あり注目を可能にすること。
質問に焦点を当てたセマンティックセグメンテーション（QFSS）という新たなタスクを提案・評価すること。このタスクでは、与えられた質問に視覚的に答えられるようなセグメンテーションを生成する。
異なる質問表現（単語埋め込み対ボックオブワーズ）がQFSS性能に与える影響を調査すること。
従来分離されていたタスク間で人間の教師信号を転送することで、視覚言語理解のための新ベンチマークを確立すること。

提案手法

COCOの画像に対して、対応するVQAの質問と回答にインスタンスセグメンテーションをリンクさせることで、VQSデータセットを構築する。
VQSのリンクを用いて、セグメンテーションマスクによる教師信号を注目特徴に与えることで、VQAモデルを訓練し、注目局所化を向上させる。
マスクアグリゲーションとDeconvNetを用いて、質問文脈に基づくセグメンテーションマスクを生成する、質問に焦点を当てたセマンティックセグメンテーション（QFSS）フレームワークを実装する。
予測されたセグメンテーションマスクと正例マスクとの間のL2損失を用いて、質問に条件づけられた注目を有するDeconvNetベースのモデルを訓練する。
2つの質問表現方式（単語埋め込みとボックオブワーズ特徴）を比較し、QFSS性能への影響を評価する。
テスト時に真のセグメンテーションが利用可能であると仮定するオラクル手法を用いて、QFSSの上限性能を確立する。

実験結果

リサーチクエスチョン

RQ1インスタンスセグメンテーションをVQAの質問にリンクさせることで、視覚的質疑応答における注目教師信号の質が向上するか？
RQ2VQSデータセットは、VQAの実際の複数選択問題ベンチマークで最先端の性能を達成するために効果的か？
RQ3セグメンテーション-QAのリンクを用いて、質問に焦点を当てたセマンティックセグメンテーション（QFSS）タスクを効果的に定式化・評価できるか？
RQ4異なる質問表現方式（単語埋め込み対ボックオブワーズ）は、QFSS性能にどのように影響するか？
RQ5提案手法のQFSS性能と、テスト時に完全なインスタンスセグメンテーションが利用可能であると仮定したオラクル手法との性能差はどの程度か？

主な発見

VQSに基づく教師あり注目アプローチは、マルチレイヤーパーセプトロンにセグメンテーションで教師された注目特徴を追加することで、VQAの実際の複数選択問題ベンチマークで最先端の性能を達成した。
QFSSにおけるマスクアグリゲーション手法は、ベースラインのDeconvNetを上回ったが、依然としてオラクルの上限性能に大きく差をつけていた。これは、さらなる改善の余地があることを示している。
平均して、1つの質問に対して複数のセグメンテーションが選択されており、質問が複数の視覚的エンティティを必要とする場合が多いことが示された。
ボックオブワーズと単語埋め込みの表現は明確に異なる結果を示し、QFSS性能が質問エンコーディング戦略に敏感であることが示された。
定性的な結果から、モデルが「何匹？」のような質問に対して複数の関連するセグメンテーションを正しく特定していることが確認された。
VQSデータセットは、セマンティックセグメンテーションとVQAの間で人間の教師信号を効果的に転送可能であり、同じ画像セットに異なるアノテーションをリンクさせることの価値を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。