QUICK REVIEW

[論文レビュー] Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning"

Saeed Amizadeh, Hamid Palangi|arXiv (Cornell University)|Jun 20, 2020

Multimodal Machine Learning Applications被引用数 26

ひとこと要約

本稿では、質問に応じた論理的推論を分離して評価できるようにする、微分可能1階論理を用いた神経記号的フレームワーク、∇-FOLを提案する。このフレームワークにより、視覚的認識と推論の混同を解き、推論能力を独立して評価可能となる。また、視覚入力に不完全性がある状況でも推論性能を向上させるトップダウン補正技術を導入し、GQAの難易度の高いサブセットで88.51%の精度を達成。視覚的曖昧性に対する耐性が向上したことが示された。

ABSTRACT

Visual reasoning tasks such as visual question answering (VQA) require an interplay of visual perception with reasoning about the question semantics grounded in perception. However, recent advances in this area are still primarily driven by perception improvements (e.g. scene graph generation) rather than reasoning. Neuro-symbolic models such as Neural Module Networks bring the benefits of compositional reasoning to VQA, but they are still entangled with visual representation learning, and thus neural reasoning is hard to improve and assess on its own. To address this, we propose (1) a framework to isolate and evaluate the reasoning aspect of VQA separately from its perception, and (2) a novel top-down calibration technique that allows the model to answer reasoning questions even with imperfect perception. To this end, we introduce a differentiable first-order logic formalism for VQA that explicitly decouples question answering from visual perception. On the challenging GQA dataset, this framework is used to perform in-depth, disentangled comparisons between well-known VQA models leading to informative insights regarding the participating models as well as the task.

研究の動機と目的

最先端のVQAモデルにおける視覚的認識と推論の混同を解消し、推論能力の評価と向上を妨げる要因を解消すること。
認識の品質に依存せずに推論性能を体系的に評価できるように、推論を視覚的認識から分離する手法を開発すること。
オブジェクト検出器が重要な属性を捉えられない場合を含め、視覚的表現が不完全な状況下でのVQAモデルの推論方法を調査すること。
認識のノイズや誤分類が生じる状況下でも、視覚的に難易度の高い例と易しい例の両方で推論の整合性と耐性を評価すること。
視覚的入力が劣化している状況でも、文脈的なプログラム構造を用いた補正機構によって推論性能を向上させる手法を導入すること。

提案手法

質問から導出される論理的プログラムをコンポジショナルな推論プロセスとしてモデル化する、微分可能1階論理形式である∇-FOLを提案する。
視覚的認識と推論を分離するために、推論モジュールに真値のシーングラフを入力とすることで、純粋な推論評価を可能にする。
オブジェクトおよび関係の表現を基に論理プログラムを処理する微分可能な論理的推論エンジンを採用し、エンドツーエンドのバックプロパゲーションをサポートする。
プログラム構造と注目メカニズムを用いて、論理的文脈に基づいて推論意思決定を精緻化するトップダウンの文脈的補正技術を導入する。
自然言語の質問を論理的プログラムに変換するシーケンス・ツー・シーケンスの意味解析器を学習させ、∇-FOLフレームワークと統合する。
視覚的認識の品質が変動する状況下での推論性能を評価するため、GQAデータセットを用い、バランスの取れたテスト・デベロップメント分割と、難易度の高い/低いサブセットを用いる。

実験結果

リサーチクエスチョン

RQ1VQAにおける推論は、視覚的認識とはどの程度分離して評価可能であり、その分離がモデルの解釈可能性をどのように向上させるか？
RQ2オブジェクト検出器が不完全な状況下でも、LXMERT や MAC といった最先端のVQAモデルは推論タスクでどの程度の性能を示すか？
RQ3完全な視覚特徴に依存せずに、トップダウンの文脈的補正が視覚的に曖昧な例における推論の耐性を向上させられるか？
RQ4認識が劣化している状況下でも、論理的に関連する質問の間で推論行動の整合性は保たれるか？その結果、モデルの信頼性にどのような示唆があるか？
RQ5VQAモデルに論理的でない、文脈に依存する推論メカニズムを導入する際の、正確性と整合性のトレードオフはどのようなものか？

主な発見

∇-FOLフレームワークにより、推論の分離評価が可能となり、LXMERTがMACよりも推論タスクで優れた性能を示すことが明らかになった。特に視覚的に難しい例では、LXMERTが37.82%の精度を示した一方、MACは9.20%にとどまった。
トップダウン補正により、難易度の高いサブセットにおける推論性能が顕著に向上し、補正済み∇-FOLモデルでは、精度が6.32%から88.51%に上昇した。
易しいサブセットと難しいサブセットの間で精度の差は大きい（例：LXMERTでは54.76% vs. 12.91%）が、整合性の差は小さいため、モデルが関連する質問に対して安定した推論行動を示していることが示された。
補正済みモデルでは、全テストセット全体で整合性が低下しており、正確性と論理的整合性の間のトレードオフが顕在化している。
補正済みモデルは、視覚的に情報量の多い例でより多くの誤りを犯しており（Err_eが高くなる）、論理的整合性を犠牲にして文脈に過剰に依存するリスクが示された。
本研究により、全体のGQA精度だけでは推論能力が十分に捉えられていないことが確認され、視覚的に不完全なケースでの性能が、視覚的推論能力を評価する上でより意味のある指標であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。