QUICK REVIEW

[论文解读] Learning to Compose Dynamic Tree Structures for Visual Contexts

Kaihua Tang, Hanwang Zhang|arXiv (Cornell University)|Dec 5, 2018

Multimodal Machine Learning Applications参考文献 43被引用 31

一句话总结

本文提出VCTree，一种动态树状视觉上下文模型，可为视觉推理任务学习特定任务的物体关系。通过从可学习的成对物体得分构建最大生成树（MST），并利用TreeLSTM进行编码，VCTree在场景图生成（SGG）和视觉问答（VQA）任务上取得当前最优性能，优于固定结构（如链式结构和全连接图）的同时，实现了可解释的、内容感知的上下文建模。

ABSTRACT

We propose to compose dynamic tree structures that place the objects in an image into a visual context, helping visual reasoning tasks such as scene graph generation and visual Q&A. Our visual context tree model, dubbed VCTree, has two key advantages over existing structured object representations including chains and fully-connected graphs: 1) The efficient and expressive binary tree encodes the inherent parallel/hierarchical relationships among objects, e.g., "clothes" and "pants" are usually co-occur and belong to "person"; 2) the dynamic structure varies from image to image and task to task, allowing more content-/task-specific message passing among objects. To construct a VCTree, we design a score function that calculates the task-dependent validity between each object pair, and the tree is the binary version of the maximum spanning tree from the score matrix. Then, visual contexts are encoded by bidirectional TreeLSTM and decoded by task-specific models. We develop a hybrid learning procedure which integrates end-task supervised learning and the tree structure reinforcement learning, where the former's evaluation result serves as a self-critic for the latter's structure exploration. Experimental results on two benchmarks, which require reasoning over contexts: Visual Genome for scene graph generation and VQA2.0 for visual Q&A, show that VCTree outperforms state-of-the-art results while discovering interpretable visual context structures.

研究动机与目标

解决固定视觉上下文结构（如链式结构和全连接图）在建模层次化与并行物体关系方面的局限性。
实现动态、内容与任务相关的视觉上下文建模，以适应不同推理任务（如场景图生成和视觉问答）。
通过学习结构化、可解释的物体交互表示，捕捉并行与层次化关系，从而提升高层视觉任务的性能。
通过更具判别性与自适应的上下文结构，缓解视觉问答中的偏差（如问答偏差和类别偏差）。
开发一种混合学习框架，结合监督学习与强化学习，实现上下文结构与下游任务性能的端到端联合训练。

提出的方法

使用可学习函数计算物体对之间的任务特定得分矩阵，表示每对关系的上下文有效性。
通过得分矩阵计算最大生成树（MST），生成动态视觉上下文树，确保结构具有层次性与稀疏性。
将多分支MST转换为左子右兄弟二叉树，以支持对层次化与并行关系的高效TreeLSTM编码。
使用双向TreeLSTM编码树状上下文，以捕捉物体间长距离依赖与层次化关系。
采用混合学习策略进行模型训练：使用监督学习优化下游任务性能（如SGG、VQA），并将任务评估结果（如准确率、召回率）作为强化学习中的评论信号，引导树结构探索。
在VQA中引入问题引导门机制，使上下文结构能根据具体查询自适应调整，提升任务相关性与可解释性。

实验结果

研究问题

RQ1动态可学习树结构是否能在高层视觉任务的视觉上下文建模中超越链式结构和全连接图等固定结构？
RQ2树状上下文表示在捕捉层次化关系（如“头盔在头上”）与并行关系（如“女孩在马上”）方面是否有效？
RQ3树结构的动态特性在场景图生成与视觉问答等推理任务中能在多大程度上提升性能？
RQ4所提出的混合学习框架（结合监督学习与强化学习）是否能有效优化上下文结构与下游任务性能？
RQ5所学习的VCTree结构是否能有效降低SGG中的类别偏差与VQA中的问答偏差？

主要发现

VCTree在Visual Genome数据集上的三个标准场景图生成（SGG）任务中均取得当前最优性能，显著优于先前方法。
在VQA2.0数据集上，VCTree-HL在test-dev与test-standard两个测试集上均取得最佳整体性能，尤其在平衡对子集上取得最大绝对提升，表明问答偏差得到缓解。
模型在平衡对子集上的表现显著优于非上下文模型，表明VCTree能有效捕捉细微图像差异并减少偏差。
定性分析显示，VCTree学习到可解释的动态树结构，能根据问题自适应调整——例如，对于动作相关问题，将“男人”设为根节点；对于物体存在性问题，则将“树”设为根节点。
消融实验表明，VCTree-HL在性能上优于固定结构（如全连接图）及其他动态结构策略，验证了所提得分函数与基于MST的树构建方法的有效性。
混合学习策略（即以监督任务性能作为强化学习中的评论信号）可有效探索最优树结构，且无需可微分的树构建过程。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。