QUICK REVIEW

[论文解读] Attribute Recognition by Joint Recurrent Learning of Context and Correlation

Jingya Wang, Xiatian Zhu|arXiv (Cornell University)|Sep 25, 2017

Domain Adaptation and Few-Shot Learning参考文献 31被引用 36

一句话总结

该论文提出了一种联合循环学习（JRL）模型，通过序列到序列的RNN编码器-解码器架构，联合建模个体内部属性相关性与个体间图像相似性，从而在低质量监控图像和有限训练数据下提升行人属性识别性能。该方法在PETA和RAP基准上达到最先进性能，通过属性顺序集成实现3.54%的mAP提升，且在循环注意力和上下文建模方面表现出显著优势。

ABSTRACT

Recognising semantic pedestrian attributes in surveillance images is a challenging task for computer vision, particularly when the imaging quality is poor with complex background clutter and uncontrolled viewing conditions, and the number of labelled training data is small. In this work, we formulate a Joint Recurrent Learning (JRL) model for exploring attribute context and correlation in order to improve attribute recognition given small sized training data with poor quality images. The JRL model learns jointly pedestrian attribute correlations in a pedestrian image and in particular their sequential ordering dependencies (latent high-order correlation) in an end-to-end encoder/decoder recurrent network. We demonstrate the performance advantage and robustness of the JRL model over a wide range of state-of-the-art deep models for pedestrian attribute recognition, multi-label image classification, and multi-person image annotation on two largest pedestrian attribute benchmarks PETA and RAP.

研究动机与目标

解决在图像质量差、分辨率低且标注训练数据有限的监控图像中行人属性识别的挑战。
克服现有方法将属性相关性和视觉上下文独立处理或依赖弱监督（如人体部位检测）的局限性。
开发一种统一的深度学习框架，同时建模个体内部属性相关性（例如‘女性’与‘短裙’共现）和个体间图像相似性（例如同一场景中的人共享属性），以提升模型鲁棒性。
通过利用循环架构中的属性序列依赖关系，实现稀疏标注、低质量数据下的更准确、更鲁棒的属性预测。

提出的方法

构建一个将固定长度图像区域序列映射为有序属性列表的序列到序列RNN编码器-解码器模型。
使用编码器处理行人图像的局部空间区域，通过循环编码空间依赖关系捕捉个体内部属性上下文。
通过从训练集中检索视觉上相似的样本图像，引入个体间相似性上下文，并通过最大池化对这些样本进行编码，以丰富图像表征。
将编码后的图像特征与上下文特征融合，用于初始化解码器，解码器通过循环自回归预测生成可变长度的属性序列。
引入一种数据驱动的循环注意力机制，对齐图像区域序列与属性标签序列，提升对相关视觉线索的关注。
通过训练10种属性顺序的随机排列并平均预测结果，实施属性顺序集成，以减少模糊性，提升在噪声或不完整数据上的鲁棒性。

实验结果

研究问题

RQ1在低数据量和低质量条件下，联合建模个体内部属性相关性与个体间图像相似性是否能提升行人属性识别性能？
RQ2与并行预测模型（如基于CNN的模型）相比，循环序列到序列架构在捕捉高阶属性依赖关系方面表现如何？
RQ3引入个体间相似性上下文在小规模基准（如PETA和RAP）上在多大程度上提升了模型的鲁棒性和性能？
RQ4使用属性顺序集成与循环注意力机制是否显著提升了在模糊或低分辨率图像上的预测准确率与泛化能力？

主要发现

在PETA基准上，JRL模型的mAP达到85.67%，相比10种随机属性顺序预测的平均值（82.13%）提升了3.54%。
在RAP基准上，JRL模型的mAP为77.81%，相比10种属性顺序集成的平均值（74.74%）提升了3.07%。
若不包含个体间相似性上下文，PETA上的mAP下降0.65%，RAP上下降0.87%，表明该上下文对性能有显著贡献。
若移除循环注意力机制，PETA上的mAP下降1.64%，RAP上下降1.85%，证实其在对齐视觉与属性序列方面的价值。
定性分析显示，JRL能正确预测‘短裙’和‘长发’等属性，即使在视觉模糊或遮挡情况下，得益于序列上下文（如‘年龄-头发-短裙’的顺序）。
相比之下，非序列模型（如DeepMAR）在视觉线索微弱时无法正确预测这些属性，凸显了序列建模的优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。