[論文レビュー] Multi-modality Latent Interaction Network for Visual Question Answering
MLINは、視覚情報と言語情報を少数の潜在ベクトルに要約するマルチモーダル潜在相互作用モジュールを導入し、これらの要約間の跨モーダル関係をモデル化し、注意機構に基づく集約によって特徴を更新してVQA性能を向上させる。
Exploiting relationships between visual regions and question words have achieved great success in learning multi-modality features for Visual Question Answering (VQA). However, we argue that existing methods mostly model relations between individual visual regions and words, which are not enough to correctly answer the question. From humans' perspective, answering a visual question requires understanding the summarizations of visual and language information. In this paper, we proposed the Multi-modality Latent Interaction module (MLI) to tackle this problem. The proposed module learns the cross-modality relationships between latent visual and language summarizations, which summarize visual regions and question into a small number of latent representations to avoid modeling uninformative individual region-word relations. The cross-modality information between the latent summarizations are propagated to fuse valuable information from both modalities and are used to update the visual and word features. Such MLI modules can be stacked for several stages to model complex and latent relations between the two modalities and achieves highly competitive performance on public VQA benchmarks, VQA v2.0 and TDIUC . In addition, we show that the performance of our methods could be significantly improved by combining with pre-trained language model BERT.
研究の動機と目的
- 各モダリティの高レベルな潜在要約を学習することで、領域と語の関係だけに頼らずに進む必要性を動機づける。
- 視覚情報と言語情報を少数の潜在ベクトルに要約するMLINフレームワークを提案する。
- 潜在的な視覚・言語要約間の跨モーダル関係をモデル化し、それらの間で情報を伝搬させる。
- 回答を予測するために、注意機構を介して元の視覚特徴と語特徴を更新する。
- 事前学習済み言語モデル(BERT)と統合することがVQA性能を向上させることを示す。
提案手法
- Faster R-CNN を用いて視覚領域をエンコードし、双方向 Transformer で質問をエンコードして、R ∈ R^{M x 512} および E ∈ R^{N x 512} を得る。
- 学習された線形写像を用いて各モダリティのk個の潜在要約ベクトルを生成し、R および E をそれぞれのモダリティのlatent表現に変換する。
- A(i,j,:) を W_A [ overline{R}(i,:) ⊗ overline{E}(j,:) ] + b_A として、対になる潜在相互作用を捉えるための k x k 跨モーダル関係テンソルを構築する。
- 対になった潜在特徴間で情報を伝搬させるには、(i) A に対する跨モーダル変換を行い lat_A_c を生成、(ii) すべての対間で高次情報を交換する二度目の伝搬を行い lat_A_p を生成する;それらを足し合わせて lat_A を得る。
- 更新された潜在表現をキークエリ注意機構を用いて元のモダリティへ集約し、R_U と E_U を得る。
- 複数のMLIモジュールを積み重ねて特徴を段階的に refine し、最後に要素ごとの乗算による融合を行い、線形分類器で最終的な答えを予測する。
実験結果
リサーチクエスチョン
- RQ1すべての領域-語の対を扱うのではなく、高レベルな相互作用に焦点を当てる小さな潜在跨モーダル要約を学習することで、VQAは改善されるか?
- RQ2潜在要約間で情報を伝搬させることが跨モーダル推論と最終的なVQA精度にどう影響するか?
- RQ3MLINフレームワークに事前学習済み言語モデル(BERT)を統合することがVQA性能に与える影響は?
主な発見
- MLINはVQA v2.0およびTDIUCベンチマークで競争力のある性能を達成する。
- 視覚6個・質問6個の潜在要約と3x3のアテンションヘッドを使用すると、アブレーションで強力な結果を得る。
- 潜在要約を介した関係推論は、DFAFなどの従来手法と比較して競争力のある精度を維持しつつ、必要なメッセージ伝搬を削減する。
- BERTの微調整を組み込む(学習率のスケジューリングに注意)ことで、MLINのベースラインより精度がさらに向上する。
- より深いスタッキング(MLIN-8)は、アブレーションにおいて浅い構成より一般的に性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。