[论文解读] Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification
该论文提出Hi-CMD,一种用于可见光-红外行人重识别的分层跨模态解耦框架,通过使用保持身份的行人图像生成网络和分层特征学习模块,将ID判别性因素(如体型、服装)与ID无关因素(如姿态、光照)解耦。该方法在两个基准数据集上实现了最先进性能,通过解耦的、对姿态和光照不变的特征实现鲁棒的跨模态匹配,且无需姿态监督。
Visible-infrared person re-identification (VI-ReID) is an important task in night-time surveillance applications, since visible cameras are difficult to capture valid appearance information under poor illumination conditions. Compared to traditional person re-identification that handles only the intra-modality discrepancy, VI-ReID suffers from additional cross-modality discrepancy caused by different types of imaging systems. To reduce both intra- and cross-modality discrepancies, we propose a Hierarchical Cross-Modality Disentanglement (Hi-CMD) method, which automatically disentangles ID-discriminative factors and ID-excluded factors from visible-thermal images. We only use ID-discriminative factors for robust cross-modality matching without ID-excluded factors such as pose or illumination. To implement our approach, we introduce an ID-preserving person image generation network and a hierarchical feature learning module. Our generation network learns the disentangled representation by generating a new cross-modality image with different poses and illuminations while preserving a person's identity. At the same time, the feature learning module enables our model to explicitly extract the common ID-discriminative characteristic between visible-infrared images. Extensive experimental results demonstrate that our method outperforms the state-of-the-art methods on two VI-ReID datasets. The source code is available at: https://github.com/bismex/HiCMD.
研究动机与目标
- 为解决可见光-红外行人重识别(VI-ReID)中同时存在的类内与跨模态差异问题,该问题在光照不良条件下阻碍了准确匹配。
- 在无姿态标注的情况下,从跨模态图像中解耦身份判别性特征(如服装、体型)与身份无关因素(如姿态、光照)。
- 开发一种自监督、端到端可训练的框架,通过生成具有操控姿态和光照属性的身份保持图像,提升特征鲁棒性。
- 减小跨模态差异,同时最小化类内距离并最大化类间距离,以提升特征空间中的匹配准确率。
提出的方法
- 身份保持的行人图像生成(ID-PIG)网络通过替换跨模态图像对中的潜在向量,解耦身份无关因素,实现在保持身份的同时实现姿态和光照的迁移。
- 分层特征学习(HFL)模块通过交替采样风格码和原型码,显式提取可见光与红外图像之间的共同身份判别性特征。
- 通过交叉熵损失、三元组损失和对抗性损失的组合进行端到端训练,以促进特征解耦与身份保持。
- ID-PIG网络采用条件生成对抗网络(cGAN)架构,以可控属性变化生成逼真的图像。
- HFL模块中使用原型码表示身份不变特征,风格码表示身份无关特征,实现分层解耦。
- 该框架无需人体姿态估计或关键点监督,而是依赖于图像级约束的自监督解耦。
实验结果
研究问题
- RQ1在无姿态监督或成对关键点标注的情况下,能否有效从可见光-红外图像中解耦身份判别性与身份无关因素?
- RQ2身份不变与身份无关特征的分层解耦在VI-ReID中如何提升跨模态匹配性能?
- RQ3身份保持图像生成网络在保持身份的前提下,对姿态和光照属性的操控能力在多大程度上有效?
- RQ4与基线策略相比,HFL模块中风格码与原型码的交替采样策略是否显著降低了特征空间中的类内距离并增加了类间距离?
- RQ5解耦表示能否在跨模态与同模态变化下有效用于行人重识别?
主要发现
- 在RegDB数据集上,Hi-CMD实现了70.93%的rank-1准确率和66.04%的mAP,优于先前最先进方法。
- 在SYSU-MM01数据集上,Hi-CMD实现了34.94%的rank-1准确率和35.94%的mAP,展现出优异的跨数据集泛化能力。
- 与单独学习任一编码相比,HFL模块通过交替采样风格码与原型码,显著降低了类内距离并增加了类间距离。
- ID-PIG网络的可视化结果证实,姿态和光照可独立操控且身份保持不变,证明了解耦的有效性。
- 潜在空间中对身份无关因素的线性插值在姿态和光照上产生平滑过渡,表明属性表示具有连续性和解耦性。
- 消融实验表明,ID-PIG与HFL模块的结合达到最高性能,证实二者在解耦与匹配中具有互补作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。