[论文解读] Rethinking of Pedestrian Attribute Recognition: Realistic Datasets with Efficient Method
论文揭示现有行人属性数据集中存在训练集与测试集身份重叠的问题,导致结果膨胀,并提出零-shot 数据集 PETA zs 和 RAPv2 zs,以及一个强基线在不进行定位微调的情况下就能超越近来的一些 SOTA 方法。
Despite various methods are proposed to make progress in pedestrian attribute recognition, a crucial problem on existing datasets is often neglected, namely, a large number of identical pedestrian identities in train and test set, which is not consistent with practical application. Thus, images of the same pedestrian identity in train set and test set are extremely similar, leading to overestimated performance of state-of-the-art methods on existing datasets. To address this problem, we propose two realistic datasets PETA extsubscript{$zs$} and RAPv2 extsubscript{$zs$} following zero-shot setting of pedestrian identities based on PETA and RAPv2 datasets. Furthermore, compared to our strong baseline method, we have observed that recent state-of-the-art methods can not make performance improvement on PETA, RAPv2, PETA extsubscript{$zs$} and RAPv2 extsubscript{$zs$}. Thus, through solving the inherent attribute imbalance in pedestrian attribute recognition, an efficient method is proposed to further improve the performance. Experiments on existing and proposed datasets verify the superiority of our method by achieving state-of-the-art performance.
研究动机与目标
- 突出当前行人属性数据集中身份重叠的不切实际性及其对评估的影响。
- 提出零-shot 数据集(PETA zs 和 RAPv2 zs)以反映现实部署场景。
- 引入一个强基线,挑战 SOTA 改进依赖属性定位模块的观念。
提出的方法
- 识别数据集存在的训练-测试身份重叠问题,并演示常见身份与唯一身份测试图像之间的性能差距。
- 通过重新划分身份来构建两个零-shot 数据集 PETA zs 和 RAPv2 zs,使测试身份不出现在训练中。
- 提出一个强基线,在 ResNet50 主干上加一个线性分类器,并进行任务特定的权重归一化,在 mA、Accuracy、Precision、Recall 和 F1 上进行评估。
- 在相同基线和主干网络下重新实现 SOTA 方法(MsVAA、VAC、ALM),以实现公平比较。
- 使用 Grad-CAM 分析属性定位,并显示该基线在没有显式定位模块的情况下也能隐式定位属性区域。
实验结果
研究问题
- RQ1当前行人属性数据集是否由于训练集和测试集之间的身份重叠而高估了模型的性能?
- RQ2在评估时测试身份严格未见(零-shot)时,对性能会有什么影响?
- RQ3一个强基线在没有显式定位模块的情况下,是否也能取得与属性特定区域相关的竞争性结果?
- RQ4在零-shot 数据集上,SOTA 方法相对于传统基线是否仍能提供一致的提升?
- RQ5常见身份与唯一身份图像子集在评估指标上对不同数据集的影响如何?
主要发现
- 现有数据集在训练集和测试集之间存在大量身份重叠,导致性能估计被夸大。
- 零-shot 数据集 PETA zs 和 RAPv2 zs 减少了重叠,并揭示当前方法在零-shot 设置下的显著性能下降。
- 使用 ResNet50 主干的强基线在零-shot 设置下的表现超过了若干 SOTA 方法。
- 在相同基线下重新实现的 SOTA 方法获得的提升相当或不如基线强,表明是基线强度驱动了性能,而非新颖模块。
- 以定位为导向的注意力模块在强基线上的增益有限甚至无增益,提示定位可能不是提升的关键因素。
- 提出的数据集和基线共同揭示,在现有数据集上 SOTA 方法所 claimed 的改进可能是数据泄露和基线不足的伪影。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。