QUICK REVIEW

[论文解读] Deep View-Sensitive Pedestrian Attribute Inference in an end-to-end Model

M. Saquib Sarfraz, Arne Schumann|arXiv (Cornell University)|Jul 19, 2017

Video Surveillance and Tracking Methods参考文献 16被引用 53

一句话总结

本文提出 VeSPA，一种端到端深度学习模型，可联合预测行人视角（正面、背面、侧面）并执行特定视角的多标签属性推理。通过利用粗略姿态作为监督信号，该模型通过学习专门的、视角感知的表征，提升了属性预测的准确性，在 PETA、RAP 和 WIDER 数据集上实现了最先进性能，且在 RAP 数据集上的视角分类准确率达到 91.7%。

ABSTRACT

Pedestrian attribute inference is a demanding problem in visual surveillance that can facilitate person retrieval, search and indexing. To exploit semantic relations between attributes, recent research treats it as a multi-label image classification task. The visual cues hinting at attributes can be strongly localized and inference of person attributes such as hair, backpack, shorts, etc., are highly dependent on the acquired view of the pedestrian. In this paper we assert this dependence in an end-to-end learning framework and show that a view-sensitive attribute inference is able to learn better attribute predictions. Our proposed model jointly predicts the coarse pose (view) of the pedestrian and learns specialized view-specific multi-label attribute predictions. We show in an extensive evaluation on three challenging datasets (PETA, RAP and WIDER) that our proposed end-to-end view-aware attribute prediction model provides competitive performance and improves on the published state-of-the-art on these datasets.

研究动机与目标

解决监控场景中行人属性推理的挑战，其中属性高度依赖视角。
通过显式建模视角特定的视觉线索，而不依赖显式定位或部件检测器，提升多标签属性预测性能。
在单一端到端深度学习框架中统一视角预测与属性识别。
证明粗略姿态信息可作为强大且可迁移的监督信号，以提升属性推理性能。

提出的方法

模型使用共享主干卷积神经网络，早期层专门用于视角预测（正面/背面/侧面）。
后期层包含针对三种粗略视角之一的特定属性预测头。
模型通过联合优化视角分类与多标签属性分类的多任务损失函数进行端到端训练。
采用激励反向传播技术可视化并分析对每项属性预测最相关的图像区域。
视角预测器在 RAP（具有视角标注）上进行初始化，并在 PETA 和 WIDER（缺乏视角标签）上进行微调，从而实现在新数据集上的迁移。
该架构支持视角与属性预测的联合优化，视角信息引导注意力聚焦于相关图像区域。

实验结果

研究问题

RQ1粗略行人视角（正面/背面/侧面）能否作为提升属性推理性能的强而可迁移的监督信号？
RQ2与视角无关的模型相比，学习视角特定的属性表征是否能带来更优的整体属性预测性能？
RQ3端到端模型是否能比独立或基于部件的方法更有效地联合学习视角预测与属性识别？
RQ4对于同一属性，模型的注意力图与特征激活在不同视角下的表现有何差异？

主要发现

所提出的 VeSPA 模型在 RAP 测试集上实现了 91.7% 的视角分类准确率，证明了其视角预测的可靠性。
该模型在所有三个基准数据集（PETA、RAP 和 WIDER）上均实现了最先进性能。
当在与各自视角匹配的图像上测试时，视角特定的属性预测头达到了最高准确率，证实了模型的成功专业化。
激励反向传播显示，VeSPA 学习到了视角依赖的注意力机制：例如，在背面视角中，颈部区域对‘围巾’预测最为关键，而在侧视中，躯干区域起关键作用。
定性结果表明，VeSPA 的预测具有语义意义，且许多误报情况也具有合理性（例如，将‘鞋子’预测为‘皮质鞋’）。
尽管 PETA 和 WIDER 缺乏视角标注，但将视角预测器迁移到这些数据集后，仍能生成高质量的平均图像，其外观与 RAP 的结果高度相似，表明模型具有强大的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。