[论文解读] Semantically Self-Aligned Network for Text-to-Image Part-aware Person Re-identification
SSAN 自动学习文本到图像人 ReID 的语义对齐的部件级视觉与文本特征,使用 Word Attention Module、multi-view non-local relations,以及 Compound Ranking loss,还有一个新的 ICFG-PEDES 数据集。
Text-to-image person re-identification (ReID) aims to search for images containing a person of interest using textual descriptions. However, due to the significant modality gap and the large intra-class variance in textual descriptions, text-to-image ReID remains a challenging problem. Accordingly, in this paper, we propose a Semantically Self-Aligned Network (SSAN) to handle the above problems. First, we propose a novel method that automatically extracts semantically aligned part-level features from the two modalities. Second, we design a multi-view non-local network that captures the relationships between body parts, thereby establishing better correspondences between body parts and noun phrases. Third, we introduce a Compound Ranking (CR) loss that makes use of textual descriptions for other images of the same identity to provide extra supervision, thereby effectively reducing the intra-class variance in textual features. Finally, to expedite future research in text-to-image ReID, we build a new database named ICFG-PEDES. Extensive experiments demonstrate that SSAN outperforms state-of-the-art approaches by significant margins. Both the new ICFG-PEDES database and the SSAN code are available at https://github.com/zifyloo/SSAN.
研究动机与目标
- 解决跨模态文本到图像 ReID 中的挑战:文本内部类别方差较大,以及单词-身体部位映射的可变性。
- 在不使用外部工具的情况下,自动推导与视觉区域对齐的部件级文本特征。
- 通过多视角非局部交互建模身体部位之间的关系,以更好地匹配名词短语。
- 通过利用同一身份的其他图像描述的 Compound Ranking loss,减少文本内部类别方差。
- 提供一个新的、更具挑战性且以身份为中心的数据集 (ICFG-PEDES) 以推动文本到图像 ReID 研究。
提出的方法
- 通过对视觉特征图的均匀划分提取部件级视觉特征。
- 用双向LSTM处理描述以获得词表示。
- 使用 Word Attention Module (WAM) 预测词-部位关联并生成部件级文本特征。
- 应用共享的 1x1 卷积将全局视觉特征与文本特征对齐到共同空间(全局分支)。
- 在部件分支中引入 Part-specific Feature Learning (PFL) 和 Part Relation Learning (PRL),以获得语义对齐的部件特征。
- 在两种模态中使用 Multi-View Non-Local Network (MV-NLN) 捕捉部内和部间关系并细化部件特征。
- 提出一个 Compound Ranking (CR) loss,结合强监督和弱监督项,带自适应边距,以把同一身份的其他图像描述作为监督来利用。
- 使用全局、PFL 和 PRL 特征进行训练,结合 ID loss 与 CR loss;推理时对三种模态相似度求和(S_g、S_l、S_n)。
实验结果
研究问题
- RQ1是否可以在没有外部文本工具的情况下,自动为文本到图像 ReID 提取语义自对齐的部件特征?
- RQ2通过 MV-NLN 建模部间关系是否能提升跨模态对齐和检索性能?
- RQ3利用同一身份的其他图像描述的 Compound Ranking loss 能否降低文本内部类别方差?
- RQ4所提出的 SSAN 架构是否在标准数据集和新引入的数据集上优于现有的文本到图像 ReID 方法?
主要发现
- 在加入 PFL(部件特征学习)时,SSAN 在 CUHK-PEDES 的 Rank-1 基线提升了 4.58 个百分点,在 ICFG-PEDES 提升了 3.56 个百分点。
- 增加 PRL(部件关系学习)额外提升了 1.33 个百分点(CUHK-PEDES)和 0.95 点(ICFG-PEDES)。
- 引入 CR loss 在 Rank-1 方面又带来额外的 1.62 点(CUHK-PEDES)和 1.21 点(ICFG-PEDES)的提升。
- SSAN 在 CUHK-PEDES 上超越了现有方法,在 Rank-1 的准确率方面比 ViTAA 高出 5.4%,在其他等级上也具有竞争力的表现。
- SSAN 在完整模型(Global + PFL + MV-NLN + CR loss)下取得最强结果,显著优于基线和以往的部分特征方法。
- 作者发布 ICFG-PEDES 作为一个以身份为中心、细粒度的数据集,具有更长的字幕描述和更具挑战性的图像,以支持未来研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。