Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Assemble Neural Module Tree Networks for Visual Grounding

Daqing Liu, Hanwang Zhang|arXiv (Cornell University)|Dec 8, 2018
Multimodal Machine Learning Applications参考文献 44被引用数 30
ひとこと要約

本稿では、自然言語文の依存構文解析木に沿ってニューラルモジュールを組み立てることで視覚的局所化を実行する、エンドツーエンドのフレームワークであるニューラルモジュールツリー・ネットワーク(NMTree)を提案する。言語を微細な文脈的要素に分解し、Gumbel-Softmaxを用いて微分可能なモジュール構築を実現することで、説明可能でボトムアップ的な推論を可能にし、RefCOCO、RefCOCO+、RefCOCOgベンチマークにおいて最先端の手法を上回る性能を達成する。

ABSTRACT

Visual grounding, a task to ground (i.e., localize) natural language in images, essentially requires composite visual reasoning. However, existing methods over-simplify the composite nature of language into a monolithic sentence embedding or a coarse composition of subject-predicate-object triplet. In this paper, we propose to ground natural language in an intuitive, explainable, and composite fashion as it should be. In particular, we develop a novel modular network called Neural Module Tree network (NMTree) that regularizes the visual grounding along the dependency parsing tree of the sentence, where each node is a neural module that calculates visual attention according to its linguistic feature, and the grounding score is accumulated in a bottom-up direction where as needed. NMTree disentangles the visual grounding from the composite reasoning, allowing the former to only focus on primitive and easy-to-generalize patterns. To reduce the impact of parsing errors, we train the modules and their assembly end-to-end by using the Gumbel-Softmax approximation and its straight-through gradient estimator, accounting for the discrete nature of module assembly. Overall, the proposed NMTree consistently outperforms the state-of-the-arts on several benchmarks. Qualitative results show explainable grounding score calculation in great detail.

研究の動機と目的

  • 従来の視覚的局所化手法がモノリシックな文の埋め込みや粗い主語-述語-目的語の三つ組み構成に依存するという制限を是正すること。
  • 依存構文解析木を構造的スキーマとして活用することで、微細で人間らしい複合的推論を視覚的局所化に実現すること。
  • モジュラー設計により視覚的認識と構成的推論を分離することで、視覚言語バイアスを低減すること。
  • Gumbel-Softmax近似とストレートスラッシュ勾配推定を用いたエンドツーエンド学習により、構文解析エラーへの耐性を高めること。
  • 性能と解釈可能性の両立を図り、精度と解釈性のバランスを取った視覚的局所化を達成すること。

提案手法

  • 依存構文解析木(DPT)を、各ノードが局所化スコア計算用のニューラルモジュールに対応するニューラルモジュールツリー(NMTree)構造に変換する。
  • 3つの基本的ニューラルモジュールを定義する:単一(リーフおよびルート用)、和(加法的集約用)、合成(関係の構成的推論用)。
  • 下位から上位への順序で局所化スコアを計算し、各モジュールが言語的および視覚的特徴に基づいて子ノードからの証拠を蓄積する。
  • 学習中にモジュール構築を微分可能にサンプリングするためにGumbel-Softmax近似を用い、木構造の決定が離散的であるにもかかわらずエンドツーエンド最適化を可能にする。
  • Gumbel-Softmaxサンプラーが行うハードな決定を補間するストレートスラッシュ勾配推定を適用し、安定した学習を確保する。
  • 画像および言語入力のみを活用し、追加のモジュール配置アノテーションを必要とせず、NMTreeアーキテクチャをエンドツーエンドで学習する。

実験結果

リサーチクエスチョン

  • RQ1構造的で木構造ベースのニューラルモジュールネットワークは、統合的または粗い構成的モデルと比較して、視覚的局所化の精度と説明可能性を向上させることができるか?
  • RQ2依存構文解析木を視覚的局所化の推論基盤として用いる場合、局所化性能はどのように変化するか?
  • RQ3Gumbel-Softmaxおよびストレートスラッシュ勾配推定は、ニューラルモジュールネットワークにおけるモジュール構築の際の構文解析エラーの影響をどの程度軽減できるか?
  • RQ4提案されたNMTreeモデルは、説明可能性を維持しながらも、より優れた性能を達成するか?
  • RQ5モデルの内部推論は、複雑な指差し表現における人間レベルの構成的推論と比較して、どの程度類似しているか?

主な発見

  • NMTreeは、RefCOCO、RefCOCO+、RefCOCOgの3つのベンチマークすべてで、最新の統合的および三つ組みベースのモデルを上回る新たな最先端性能を達成した。
  • RefCOCOおよびRefCOCO+では、それぞれ75.8%および72.1%の平均IoUを達成し、MAttNやAccumAttnを含む既存のSOTA手法を上回った。
  • 微分可能なGumbel-Softmaxに基づくモジュール構築のおかげで、手動でのレイアウトアノテーションが不要なエンドツーエンド学習が可能となり、構文解析エラーへの耐性が顕著に向上した。
  • 定性的な分析から、注目マップが木構造に沿って明確に鋭くなり、信頼性と一貫性のある推論プロセスが示された。
  • 人間評価では、NMTreeの内部推論ステップがAccumAttnよりも顕著に明確で解釈可能であり、4段階リッカート尺度で平均的な明確性評価が高かった。
  • モデルは『ピンクの傘を持ったピンクのブーツを履いた女の子』のような複雑な指差し表現を、構文木に沿って視覚的および言語的証拠を段階的に統合することで、正確に局所化できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。