QUICK REVIEW

[論文レビュー] Multimodal Residual Learning for Visual QA

Jin-Hwa Kim, Sangwoo Lee|arXiv (Cornell University)|Jun 5, 2016

Multimodal Machine Learning Applications参考文献 27被引用数 209

ひとこと要約

MRNは深層残差学習をマルチモーダル視覚QAへ拡張し、質問と視覚特徴の要素ごとの乗算による結合残差マッピングを用いて、VQA Open-EndedとMultiple-Choiceタスクで最先端を達成し、暗黙の視覚的注意の可視化を可能にする。

ABSTRACT

Deep neural networks continue to advance the state-of-the-art of image recognition tasks with various methods. However, applications of these methods to multimodality remain limited. We present Multimodal Residual Networks (MRN) for the multimodal residual learning of visual question-answering, which extends the idea of the deep residual learning. Unlike the deep residual learning, MRN effectively learns the joint representation from vision and language information. The main idea is to use element-wise multiplication for the joint residual mappings exploiting the residual learning of the attentional models in recent studies. Various alternative models introduced by multimodality are explored based on our study. We achieve the state-of-the-art results on the Visual QA dataset for both Open-Ended and Multiple-Choice tasks. Moreover, we introduce a novel method to visualize the attention effect of the joint representations for each learning block using back-propagation algorithm, even though the visual features are collapsed without spatial information.

研究の動機と目的

深層残差学習をマルチモーダル視覚質問応答 (VQA)へ拡張する。
明示的な注意パラメータを持たずに共同視覚-言語表現を学習する。
有効なアーキテクチャを同定するために代替のマルチモーダルショートカット構成を探索する。
Open-EndedおよびMultiple-Choiceタスクに対するVQAデータセットで最先端の性能を示す。
バックプロパagationを用いた結合残差注意効果の可視化を導入する。

提案手法

マルチモーダル入力のために残差スタイルのアーキテクチャで複数の学習ブロックを積み重ねる。
結合残差関数 F(k)(q,v) を tanh(Wq^{(k)}q) ⊙ tanh(W2^{(k)} tanh(W1^{(k)}v)) と定義して、質問 q と視覚特徴 v を統合する。
視覚経路にはアイデンティティショートカットを使用し、質問経路には次元を揃えるための線形射影を学習する。
事前計算された視覚特徴（VGG-19 または ResNet-152）とGRUベースの質問埋め込みを用い、RMSPropでエンドツーエンドに訓練する。
VQAデータセット（Open-EndedおよびMultiple-Choice）を、回答語彙数を1k/2k/3kで変化させて評価し、ブロック深度（L）と特徴選択を分析する。
視覚とFの差異を入力へ逆伝播して注意効果を可視化する方法を提供する。

実験結果

リサーチクエスチョン

RQ1明示的な注意メカニズムを持たずに、マルチモーダル残差学習は視覚と言語の統合を効果的に行えるのか？
RQ2ショートカットと結合残差関数の選択がVQAの性能にどう影響するのか？
RQ3視覚特徴のタイプ（VGG-19 vs ResNet-152）とターゲット回答数の違いが精度にどう影響するのか？
RQ4より深いMRNアーキテクチャ（学習ブロック数の増加）はVQAの性能を向上させるのか、収束しにくくなるポイントはあるのか？
RQ5逆伝播を用いて崩れた視覚特徴から空間的注意効果を可視化することは可能か？

主な発見

モデル	Open-Ended 全体	Open-Ended Y/N	Open-Ended 数	Open-Ended その他	Multiple-Choice 全体	Multiple-Choice Y/N	Multiple-Choice 数	Multiple-Choice その他
DPPnet	57.36	80.28	36.92	42.24	62.69	80.35	38.79	52.79
D-NMN	58.00	-	-	-	-	-	-	-
Deep Q+I	58.16	80.56	36.53	43.73	63.09	80.59	37.70	53.64
SAN	58.90	-	-	-	-	-	-	-
ACK	59.44	81.07	37.12	45.83	-	-	-	-
FDA	59.54	81.34	35.67	46.10	64.18	81.25	38.30	55.20
DMN+	60.36	80.43	36.82	48.33	-	-	-	-
MRN	61.84	82.39	38.23	49.41	66.33	82.41	39.57	58.40
Human	83.30	95.77	83.39	72.67	-	-	-	-

MRNはOpen-EndedとMultiple-Choiceの両タスクでVQAデータセットにおける最先端の結果を達成した（表形式の結果はMRNがいくつかのベースラインを上回ることを示しています）。
Open-Endedでは、MRNはResNet-152特徴と2k回答で全体61.84、Y/Nで82.39、Numで38.23、Otherで49.41に達する。
Multiple-Choiceでは、MRNはAllで66.33、Y/Nで82.41、Numで39.57、Otherで58.40に達する。
Deeper MRNブロックはL=3までOpen-Endedの精度を向上させ、L=4で若干低下する前に効果を示す（60.53 / 3ブロック）。
ResNet-152の視覚特徴はOpen-EndedおよびMultiple-Choiceタスクにおいて、特にOtherカテゴリでVGG-19よりも性能を大幅に改善する。
MRNは明示的な注意パラメータなしの暗黙的注意モデルとして機能し、入力を通じて逆伝播された勾配によって注意効果を可視化する方法を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。