Skip to main content
QUICK REVIEW

[論文レビュー] Probabilistic Neural-symbolic Models for Interpretable Visual Question Answering

Ramakrishna Vedantam, Karan Desai|arXiv (Cornell University)|Feb 21, 2019
Multimodal Machine Learning Applications被引用数 32
ひとこと要約

本論文は Prob-NMN を導入します。これは潜在的な記号プログラムが組み込まれたニューラルモジュールを介して回答を生成する、VQA の確率的ニューラル・シンボリックモデルです。データ効率の高い可読性を示し、推論の一貫性と感度を検証するための検証が可能となり、低監視設定で CLEVR および SHAPES の性能を向上させます。

ABSTRACT

We propose a new class of probabilistic neural-symbolic models, that have symbolic functional programs as a latent, stochastic variable. Instantiated in the context of visual question answering, our probabilistic formulation offers two key conceptual advantages over prior neural-symbolic models for VQA. Firstly, the programs generated by our model are more understandable while requiring lesser number of teaching examples. Secondly, we show that one can pose counterfactual scenarios to the model, to probe its beliefs on the programs that could lead to a specified answer given an image. Our results on the CLEVR and SHAPES datasets verify our hypotheses, showing that the model gets better program (and answer) prediction accuracy even in the low data regime, and allows one to probe the coherence and consistency of reasoning performed.

研究の動機と目的

  • シンボリックプログラムが潜在変数である、VQA の確率的ニューラル・シンボリックフレームワークを導入する。
  • 限定的なプログラム監視で、読みやすく人間にも理解可能な推論を達成する。
  • 一貫性と感度テストによるモデル推論の検証を可能にする。
  • CLEVR および SHAPES データセットで低データ設定において性能向上を示す。

提案手法

  • z を潜在プログラムとし、各プログラム記号に対して instantiation されたニューラルモジュール θ_z を用いて、p(x, z, a | i) = p(z) p(x | z) p(a | i; θ_z) を定義する。
  • 質問を潜在プログラムへ写像する推論ネットワーク q_φ(z | x) を用いる。
  • Question Coding、Module Training、Joint Training の三段階プロセスで学習する。
  • 半教師ありおよび教師あり設定に対して変分下界を導出し、段階的最適化戦略を用いる。
  • p(z)、p(x|z)、q_φ(z|x) を LSTM でパラメータ化する。各プログラム記号ごとにニューラルモジュール θ_z をインスタンス化する。プログラム事前分布 p(z) を事前訓練する。
  • 非微分可能な成分を最適化するために拡張係数 α, β, γ および REINFORCE を用いる。

実験結果

リサーチクエスチョン

  • RQ1限られた質問-プログラムの監視下で、Prob-NMN は意味のあるプログラム表現を学習できるか。
  • RQ2確率的潜在プログラムを組み込むことで、データ効率と推論プロセスの可読性が向上するか。
  • RQ3モデルの潜在推論を、一貫性(同じ答えに至る複数のプログラム間の整合性)と感度(答えの変化が推論に反映されるか)について検証できるか。
  • RQ4提案手法は低監視下で CLEVR および SHAPES の VQA 精度とプログラム予測を改善するか。

主な発見

  • Prob-NMN はデータ不足の領域で、非確率的ベースラインより一貫して性能を向上させる。
  • Prob-NMN を用いた質問コーディングは、限られた監督下で基準法よりはるかに高いプログラム予測精度を達成する。
  • 結合訓練とモジュール訓練は、以前のニューラル-シンボリック適応よりもVQA精度が向上し、より質の高い(より読みやすい)プログラムを生み出す。
  • SHAPES では、プログラム監視が 5% を超える場合、NMN より 30–35 point higher test VQA accuracy を達成する。
  • Prob-NMN は、同一・異なる答え間で推論の一貫性を検証するために、潜在プログラム p(z | i, a) をサンプリングして、一貫性と感度を検証する手段を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。