QUICK REVIEW

[논문 리뷰] Exploring Deep Models for Practical Gait Recognition

Chao Fan, Saihui Hou|arXiv (Cornell University)|2023. 03. 06.

Gait Recognition and Analysis인용 수 17

한 줄 요약

본 논문은 깊은 CNN- 및 transformer 기반 보행 모델(DeepGaitV2 및 SwinGait)이 실제 보행 인식 성능을 크게 향상시키고, 명시적 시간적 모델링을 강조하며, 보행 실루엣의 트랜스포머에서 dumb-patch 문제를 해결한다.

ABSTRACT

Gait recognition is a rapidly advancing vision technique for person identification from a distance. Prior studies predominantly employed relatively shallow networks to extract subtle gait features, achieving impressive successes in constrained settings. Nevertheless, experiments revealed that existing methods mostly produce unsatisfactory results when applied to newly released real-world gait datasets. This paper presents a unified perspective to explore how to construct deep models for state-of-the-art outdoor gait recognition, including the classical CNN-based and emerging Transformer-based architectures. Specifically, we challenge the stereotype of shallow gait models and demonstrate the superiority of explicit temporal modeling and deep transformer structure for discriminative gait representation learning. Consequently, the proposed CNN-based DeepGaitV2 series and Transformer-based SwinGait series exhibit significant performance improvements on Gait3D and GREW. As for the constrained gait datasets, the DeepGaitV2 series also reaches a new state-of-the-art in most cases, convincingly showing its practicality and generality. The source code is available at https://github.com/ShiqiYu/OpenGait.

연구 동기 및 목표

실제 데이터에서 얕은 보행 모델의 효과를 의문시한다.
보행 인식에서 명시적 시간적 모델링의 이점을 조사한다.
제한된 데이터셋과 실제 환경 데이터셋에서 CNN 기반의 DeepGaitV2와 Transformer 기반의 SwinGait를 비교한다.
트랜스포머 아키텍처의 보행 실루엣에서 고유한 도전을 다룬다.

제안 방법

깊이 효과를 연구하기 위해 2D/3D 잔차 유닛과 의사-3D 블록을 갖춘 DeepGaitV2-3D/DeepGaitV2-2D 백본을 제안한다.
보행 실루엣 토큰의 dumb-patch 문제를 완화하기 위해 컨볼루션 프런트엔드를 갖춘 SwinGait-2D/3D 트랜스포머를 도입한다.
변환된 특징 맵에서 토큰을 생성하기 위해 로컬 윈도우 Swin Transformer를 2D/3D 변형과 선형 임베딩과 함께 적용한다.
깊이(B)와 폭(C)을 변화시키며 절단 비교를 수행하고, 세트 기반과 시퀀스 기반 시간 모델링을 비교한다.
마진이 있는 트리플리프트 손실과 표준 데이터 증강을 사용하며, 공식 프로토콜을 따라 여섯 가지 보행 데이터세트에서 평가한다.

실험 결과

연구 질문

RQ1깊은 보행 모델(CNN- 및 Transformer 기반)이 실제 보행 데이터에서 얕은 모델보다 성능이 더 뛰어나게 나타날 수 있는가?
RQ2모습이 신뢰할 수 없을 때 명시적 시간적 모델링이 보행 인식을 개선하는가?
RQ3트랜스포머 기반 아키텍처(SwinGait)가 실외 보행 벤치마크에서 CNN 기반 모델을 능가하는가?
RQ4트랜스포머를 사용할 때 보행 실루엣의 비정보성(dumb) 패치를 완화하는 방법은 무엇인가?
RQ5제한된 데이터셋과 실제 환경 데이터셋에서 DeepGaitV2 versus SwinGait의 정확도와 효율성 간 트레이드오프는 어떻게 되는가?

주요 결과

DeepGaitV2-3D 및 DeepGaitV2-P3D는 실제 데이터셋인 Gait3D 및 GREW에서 강력한 성과를 달성하며, 이전 방법들에 비해 큰 향상을 보인다.
SwinGait-3D는 일반적으로 outdoor 데이터셋에서 해당 CNN 기반의 DeepGaitV2 모델들을 능가하며, 속도-정확도 트레이드오프가 유리하다.
명시적 시간 모델링(시퀀스 기반)은 프레임 순서를 보존했을 때 성능 차이를 통해 세트 기반 방법보다 명확한 이득을 제공한다.
트랜스포머의 dumb-patch 문제에 대한 실용적 해결책은 컨볼루션 블록을 트랜스폼 레이어 앞(Conv0 및 초기 스테이지)에 배치하여 보행 실루엣의 효과적인 토큰화를 가능하게 하는 것이다.
DeepGaitV2-P3D는 주요 데이터세트에서 3D CNN 대역 대비 훨씬 적은 파라미터와 FLOPs로 경쟁력 있거나 우수한 성능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.