[논문 리뷰] Action Machine: Rethinking Action Recognition in Trimmed Videos
Action Machine는 RGB 기반 행동 인식, 인간 자세 추정, 자세 기반 행동 인식을 공동으로 훈련함으로써 성능을 향상시키는 사람 중심의 프레임워크를 제안한다. 사람 바운딩 박스를 사용해 영상을 크롭하고 RGB 및 자세 스트림의 예측을 융합함으로써 NTU RGB-D 크로스뷰에서 최고의 정확도 97.2% top-1을 달성하고, 크로스서브젝트에서는 94.3%를 기록한다. 추론 속도는 약 55ms per 클립으로 매우 빠르다.
Existing methods in video action recognition mostly do not distinguish human body from the environment and easily overfit the scenes and objects. In this work, we present a conceptually simple, general and high-performance framework for action recognition in trimmed videos, aiming at person-centric modeling. The method, called Action Machine, takes as inputs the videos cropped by person bounding boxes. It extends the Inflated 3D ConvNet (I3D) by adding a branch for human pose estimation and a 2D CNN for pose-based action recognition, being fast to train and test. Action Machine can benefit from the multi-task training of action recognition and pose estimation, the fusion of predictions from RGB images and poses. On NTU RGB-D, Action Machine achieves the state-of-the-art performance with top-1 accuracies of 97.2% and 94.3% on cross-view and cross-subject respectively. Action Machine also achieves competitive performance on another three smaller action recognition datasets: Northwestern UCLA Multiview Action3D, MSR Daily Activity3D and UTD-MHAD. Code will be made available.
연구 동기 및 목표
- 행동 인식 모델이 환경적 요소나 물체 신호에 과적합되는 문제를 해결하기 위해 인간의 신체 운동에 초점을 맞춘다.
- 기존 행동 인식 접근 방식에서 모델을 오도하는 환경적 맥락과 물체 수준의 특징에 대한 의존도를 줄인다.
- 다중 작업 학습 프레임워크 내에서 자세 추정을 통해 인간 운동을 명시적으로 모델링함으로써 일반화 및 강인성을 향상시킨다.
- 사람 크롭, 행동 인식 및 자세 추정의 공동 훈련, 예측 융합을 통합한 빠르고 일반화 가능하며 높은 성능을 내는 프레임워크를 개발한다.
제안 방법
- 배경 잡음을 줄이고 사람 중심 콘텐츠를 강조하기 위해 입력 영상에서 사람 바운딩 박스를 사용해 영상을 크롭한다.
- 프레임 단위의 인간 자세 추정을 위한 병렬 디컨볼루션 헤드를 포함한 확장된 3D 컨볼루션 네트워크(I3D)를 사용한다.
- 추정된 자세 시퀀스를 기반으로 행동 인식을 수행하기 위해 2D CNN 브랜치를 도입한다.
- 공유된 I3D 특징을 사용해 RGB 기반 행동 인식, 자세 추정, 자세 기반 행동 인식을 다중 작업 훈련한다.
- 추론 시에 RGB 및 자세 분류 헤드의 최종 예측을 요소별 합산을 통해 융합한다.
- 자세 추정을 위해 COCO에서 사전 훈련된 모델을 사용하고, 행동 인식 데이터셋에서 미세조정하여 강인성을 향상시킨다.
실험 결과
연구 질문
- RQ1행동 인식과 자세 추정을 공동으로 훈련하면 트리밍된 영상 행동 인식 성능을 향상시킬 수 있는가?
- RQ2바운딩 박스 크롭을 통한 사람 중심 모델링이 영상 데이터셋에서 환경 및 물체 아티팩트에 대한 과적합을 줄일 수 있는가?
- RQ3RGB 및 자세 스트림의 예측 융합은 단일 모odal을 사용하는 것과 비교해 행동 인식에서 어떤 성능 차이를 보이는가?
- RQ4자세 추정을 통한 다중 작업 학습이 행동 인식을 위한 특징 학습을 얼마나 향상시키는가?
- RQ5RGB 및 자세 스트림을 단순히 통합한 일반적인 프레임워크가 최소한의 계산 오버헤드로 SOTA 성능을 달성할 수 있는가?
주요 결과
- Action Machine는 NTU RGB-D 크로스뷰 분할에서 97.2% top-1 정확도를 기록하여 새로운 SOTA를 수립한다.
- NTU RGB-D 크로스서브젝트 분할에서는 94.3% top-1 정확도를 달성하며 이전 방법들을 능가한다.
- Northwestern UCLA Multiview Action3D에서 ResNet-18를 사용하고 공동 훈련을 적용할 경우 기준 모델 대비 7.2점 향상된다.
- 제거 분석 결과, 사람 크롭만으로도 다양한 분할에서 1.6–4.3점의 정확도 향상을 기록한 반면, 자세 추정과의 공동 훈련은 성능을 3–7점 향상시켰다.
- NTU RGB-D 사전 훈련을 사용한 ResNet-50를 적용하면 xview3 분할에서 정확도가 96.5%로 상승하여 강력한 백본과 사전 훈련의 이점을 입증한다.
- TitanX GPU에서 8프레임 클립당 약 55ms 내외로 추론가능하여, 다중 스트림 추론임에도 불구하고 효율적임을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.