QUICK REVIEW

[論文レビュー] Learning to Compose Dynamic Tree Structures for Visual Contexts

Kaihua Tang, Hanwang Zhang|arXiv (Cornell University)|Dec 5, 2018

Multimodal Machine Learning Applications参考文献 43被引用数 31

ひとこと要約

本稿では、視覚的推論のためのタスク固有のオブジェクト関係を学習する動的木構造的視覚的文脈モデルVCTreeを提案する。可学習なペアワイズオブジェクトスコアから最大全域木（MST）を構築し、それをTreeLSTMで符号化することで、鎖状構造や完全結合グラフといった固定構造よりも、シーングラフ生成および視覚的質問応答（VQA）のタスクで最先端の性能を達成する。同時に、解釈可能でコンテンツに適応した文脈モデリングを可能にする。

ABSTRACT

We propose to compose dynamic tree structures that place the objects in an image into a visual context, helping visual reasoning tasks such as scene graph generation and visual Q&A. Our visual context tree model, dubbed VCTree, has two key advantages over existing structured object representations including chains and fully-connected graphs: 1) The efficient and expressive binary tree encodes the inherent parallel/hierarchical relationships among objects, e.g., "clothes" and "pants" are usually co-occur and belong to "person"; 2) the dynamic structure varies from image to image and task to task, allowing more content-/task-specific message passing among objects. To construct a VCTree, we design a score function that calculates the task-dependent validity between each object pair, and the tree is the binary version of the maximum spanning tree from the score matrix. Then, visual contexts are encoded by bidirectional TreeLSTM and decoded by task-specific models. We develop a hybrid learning procedure which integrates end-task supervised learning and the tree structure reinforcement learning, where the former's evaluation result serves as a self-critic for the latter's structure exploration. Experimental results on two benchmarks, which require reasoning over contexts: Visual Genome for scene graph generation and VQA2.0 for visual Q&A, show that VCTree outperforms state-of-the-art results while discovering interpretable visual context structures.

研究の動機と目的

鎖状構造や完全結合グラフといった固定視覚的文脈構造の限界を是正すること。
異なる推論タスク（例：シーングラフ生成、視覚的質問応答）に適応可能な、動的でコンテンツおよびタスク固有の視覚的文脈モデリングを可能にすること。
並列的および階層的な関係を捉える構造的かつ解釈可能なオブジェクト相互作用表現を学習することで、高レベルのビジョンタスクの性能を向上させること。
より特徴抽出的で適応的な文脈構造により、視覚的質問応答（VQA）におけるバイアス（質問-回答バイアス、カテゴリーバイアスなど）を軽減すること。
教師あり学習と強化学習を組み合わせたハイブリッド学習フレームワークを構築し、文脈構造と下流タスクの性能をエンドツーエンドで最適化すること。

提案手法

可学習関数を用いてオブジェクトペア間のタスク固有スコア行列を構築し、各ペアの文脈的妥当性を表現する。
スコア行列から最大全域木（MST）を計算することで、階層的かつスパースな構造を持つ動的視覚的文脈木を生成する。
多枝のMSTを左子右兄弟表現の二分木に変換し、階層的および並列的な関係を効率的にTreeLSTMで符号化可能にする。
双方向TreeLSTMを用いて木構造の文脈を符号化し、オブジェクト間の長距離依存性および階層的関係を捉える。
ハイブリッド学習戦略を用いてモデルを訓練する：下流タスク（例：SGG、VQA）の性能を教師あり学習で最適化し、その評価指標（例：正答率、再現率）を強化学習の評価関数（クライミング信号）として用い、木構造の探索をガイドする。
VQAタスクにおいて質問に適応したゲートを統合し、文脈構造を特定の質問に適合させ、タスクの関連性と解釈可能性を向上させる。

実験結果

リサーチクエスチョン

RQ1可学習な動的木構造は、鎖状構造や完全結合グラフといった固定構造よりも、高レベルのビジョンタスクにおける視覚的文脈モデリングで優れた性能を発揮できるか？
RQ2木構造の文脈表現は、階層的関係（例：『ヘルメットが頭にのっている』）と並列的関係（例：『少女が馬にのっている』）の両方をどれほど効果的に捉えられるか？
RQ3木構造の動的性質が、シーングラフ生成や視覚的質問応答といった推論タスクの性能向上にどの程度寄与するか？
RQ4教師あり学習と強化学習を組み合わせた本稿のハイブリッド学習フレームワークは、文脈構造と下流タスクの性能を効果的に最適化できるか？
RQ5学習されたVCTree構造は、SGGにおけるカテゴリーバイアスやVQAにおける質問-回答バイアスを低減するか？

主な発見

VCTreeは、Visual Genome上でのシーングラフ生成（SGG）の3つの標準的タスクすべてで最先端の性能を達成し、先行手法を大きく上回る。
VQA2.0では、VCTree-HLがtest-devおよびtest-standardの両セットで最高の全体的性能を示し、バランスの取れたペアサブセットで最大の絶対的向上幅を記録しており、質問-回答バイアスの低減が示唆される。
バランスの取れたペアサブセットにおけるモデルの性能は、文脈なしモデルよりも顕著に高く、VCTreeが微細な画像差を効果的に捉え、バイアスを低減していることを示している。
定性的分析では、VCTreeが質問に応じて適応する解釈可能な動的木を学習していることが明らかになった。例えば、行動関連の質問では『男』をルートとし、物体存在関連の質問では『木』をルートとする。
アブレーションスタディでは、VCTree-HLが固定構造（例：完全結合グラフ）や他の動的構造ポリシーを上回ることを確認し、提案されたスコア関数とMSTベースの木構造生成の有効性を裏付けた。
教師ありタスク性能を強化学習の評価関数として用いるハイブリッド学習戦略により、微分可能でない木構造生成を必要とせずに、最適な木構造の探索が効果的に行えることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。