[论文解读] Referring Relationships
本文提出了一个名为参考关系(referring relationships)的新任务,即模型根据结构化的<主体-谓词-宾语>关系在图像中定位主体和宾语实体。该文提出一种基于迭代注意力机制的模型,将谓词视为实体之间的空间位移,其在CLEVR、VRD和Visual Genome数据集上实现了最先进性能,同时实现了对未见类别的零样本定位。
Images are not simply sets of objects: each image represents a web of interconnected relationships. These relationships between entities carry semantic meaning and help a viewer differentiate between instances of an entity. For example, in an image of a soccer match, there may be multiple persons present, but each participates in different relationships: one is kicking the ball, and the other is guarding the goal. In this paper, we formulate the task of utilizing these "referring relationships" to disambiguate between entities of the same category. We introduce an iterative model that localizes the two entities in the referring relationship, conditioned on one another. We formulate the cyclic condition between the entities in a relationship by modelling predicates that connect the entities as shifts in attention from one entity to another. We demonstrate that our model can not only outperform existing approaches on three datasets --- CLEVR, VRD and Visual Genome --- but also that it produces visually meaningful predicate shifts, as an instance of interpretable neural networks. Finally, we show that by modelling predicates as attention shifts, we can even localize entities in the absence of their category, allowing our model to find completely unseen categories.
研究动机与目标
- 解决在图像中通过关系上下文区分同一类别多个实例的挑战。
- 提出一个新任务——参考关系,输入为结构化的<主体-谓词-宾语>关系,而非自由形式语言,以分离视觉与推理组件。
- 开发一种模型,利用主体与宾语之间的循环双向注意力位移,基于谓词条件提升定位准确率。
- 通过将谓词建模为与类别外观无关的注意力位移,实现对未见类别实体的零样本定位。
- 通过可视化注意力位移,展示其与人类可理解的空间关系一致,提升可解释性。
提出的方法
- 将谓词建模为可学习的注意力位移算子,将一个实体的注意力图转换为关注关系中另一实体的注意力图。
- 采用迭代式消息传递机制,主体与宾语在交替轮次中通过谓词特定的位移算子相互关注。
- 将位移算子定义为可微分变换,学习根据空间和上下文线索,从主体移动注意力到宾语(反之亦然)。
- 使用边界框定位的交叉熵损失进行端到端训练,监督信号来自真实主体与宾语的标注。
- 扩展模型以支持使用场景图的注意力跳变(attention saccades),实现多跳推理。
- 通过将学习到的谓词位移应用于无类别监督的实体,实现零样本推理。
实验结果
研究问题
- RQ1将谓词建模为实体间的注意力位移,是否能提升在存在同一类别多个实例的模糊场景中的定位准确率?
- RQ2基于谓词条件的迭代循环注意力机制,是否相比基于外观的模型,能产生更具可解释性和语义意义的注意力模式?
- RQ3通过仅依赖谓词驱动的注意力位移,模型能否实现对未见类别实体的零样本定位?
- RQ4在标准的指代表达和视觉关系数据集上,该方法与现有方法相比,定位性能如何?
- RQ5所学习的注意力位移在多大程度上与人类可理解的图像空间关系(如‘在……之上’或‘在……前面’)相对应?
主要发现
- 所提模型在三个基准数据集(CLEVR、VRD和Visual Genome)上达到最先进性能,CLEVR数据集上的平均IoU分数为0.5188(S-IoU)和0.5841(O-IoU)。
- 在Visual Genome数据集中,模型对长颈鹿的平均IoU达到0.6361,对大象的平均IoU达到0.6877,展现出对稀有和复杂实体的强大性能。
- 模型在使用空间位移和外观基线模型的比较中表现更优,尤其在涉及模糊实体的关系中——其中33%、60.3%和61%的关系涉及同一类别的多个实例。
- 可视化结果表明,模型学习到的注意力位移具有语义意义,与人类直觉一致,例如当谓词为‘踢’时,注意力从人移动到球。
- 即使未提供主体或宾语的类别信息,模型仍能成功定位实体,展现出对未见类别的鲁棒性与泛化能力。
- 模型学习到的注意力位移具有可解释性,并与空间关系(如‘在……之上’或‘在……前面’)相对应,经由VRD和Visual Genome的定性分析得到验证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。