[论文解读] Exploring Deep Models for Practical Gait Recognition
本文证明了基于深度卷积神经网络(CNN)和 Transformer 的步态模型(DeepGaitV2 与 SwinGait)在真实世界步态识别中的显著提升,强调显式时序建模,并解决了 Transformer 在步态轮廓中的 dumb-patch 问题。
Gait recognition is a rapidly advancing vision technique for person identification from a distance. Prior studies predominantly employed relatively shallow networks to extract subtle gait features, achieving impressive successes in constrained settings. Nevertheless, experiments revealed that existing methods mostly produce unsatisfactory results when applied to newly released real-world gait datasets. This paper presents a unified perspective to explore how to construct deep models for state-of-the-art outdoor gait recognition, including the classical CNN-based and emerging Transformer-based architectures. Specifically, we challenge the stereotype of shallow gait models and demonstrate the superiority of explicit temporal modeling and deep transformer structure for discriminative gait representation learning. Consequently, the proposed CNN-based DeepGaitV2 series and Transformer-based SwinGait series exhibit significant performance improvements on Gait3D and GREW. As for the constrained gait datasets, the DeepGaitV2 series also reaches a new state-of-the-art in most cases, convincingly showing its practicality and generality. The source code is available at https://github.com/ShiqiYu/OpenGait.
研究动机与目标
- 质疑浅层步态模型在真实世界数据上的有效性。
- 研究显式时序建模在步态识别中的收益。
- 在受限场景与真实世界数据集上评估基于 CNN 的 DeepGaitV2 与基于 Transformer 的 SwinGait。
- 解决针对步态轮廓的 Transformer 架构所独有的挑战。
提出的方法
- 提出 DeepGaitV2-3D/DeepGaitV2-2D 主干,含 2D/3D 残差单元和伪 3D 块,以研究深度效应。
- 引入带卷积前端的 SwinGait-2D/3D Transformer,以削减轮廓标记中的 dumb-patch 问题。
- 应用局部窗口的 Swin Transformer,配合 2D/3D 变体和线性嵌入,从变换后的特征图中生成 token。
- 进行消融实验,改变深度 (B) 与宽度 (C),并比较基于集合的时序建模与基于序列的时序建模。
- 采用带边距的三元组损失和标准数据增强;按照官方协议在六个步态数据集上进行评估。
实验结果
研究问题
- RQ1深度步态模型(CNN 与 Transformer)能否在真实世界步态数据上超越浅层模型?
- RQ2当外观信息不可靠时,显式时序建模是否能提升步态识别?
- RQ3基于 Transformer 的结构(SwinGait)是否在户外步态基准上超过基于 CNN 的模型?
- RQ4在使用 Transformer 时,如何缓解步态轮廓中非信息性(dumb)patch 的问题?
- RQ5在受限场景和真实世界数据集上,DeepGaitV2 与 SwinGait 在准确率和效率之间的权衡是什么?
主要发现
- DeepGaitV2-3D 与 DeepGaitV2-P3D 在真实世界数据集 Gait3D 和 GREW 上取得强劲结果,相较于现有方法有显著提升。
- SwinGait-3D 在户外数据集上通常超过相应的 CNN 基的 DeepGaitV2 模型,提供有利的速度–准确率权衡。
- 显式时序建模(基于序列)相较于基于集合的方法带来显著提升,体现在在保留帧序时的性能差异。
- 解决 Transformer 中 dumb-patch 问题的一个实用方案是在 Transformer 层之前尽早使用卷积块(Conv0 和前期阶段),从而实现对步态轮廓的有效标记。
- DeepGaitV2-P3D 在关键数据集上提供与3D CNN 对应模型竞争力甚至更优的性能,同时参数量和 FLOPs 远少于对手。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。