[논문 리뷰] UNIK: A Unified Framework for Real-world Skeleton-based Action Recognition
UNIK은 스켈레톤 데이터의 시공간 의존성을 균일하게 초기화된 의존성 행렬과 다중 헤드 어텐션으로 학습하여 교차 데이터셋 일반화를 강력하게 달성합니다. 특히 실제 영상에 대한 Posetics에서의 사전 학습으로 실세계 데이터에 대한 일반화가 향상됩니다.
Action recognition based on skeleton data has recently witnessed increasing attention and progress. State-of-the-art approaches adopting Graph Convolutional networks (GCNs) can effectively extract features on human skeletons relying on the pre-defined human topology. Despite associated progress, GCN-based methods have difficulties to generalize across domains, especially with different human topological structures. In this context, we introduce UNIK, a novel skeleton-based action recognition method that is not only effective to learn spatio-temporal features on human skeleton sequences but also able to generalize across datasets. This is achieved by learning an optimal dependency matrix from the uniform distribution based on a multi-head attention mechanism. Subsequently, to study the cross-domain generalizability of skeleton-based action recognition in real-world videos, we re-evaluate state-of-the-art approaches as well as the proposed UNIK in light of a novel Posetics dataset. This dataset is created from Kinetics-400 videos by estimating, refining and filtering poses. We provide an analysis on how much performance improves on smaller benchmark datasets after pre-training on Posetics for the action classification task. Experimental results show that the proposed UNIK, with pre-training on Posetics, generalizes well and outperforms state-of-the-art when transferred onto four target action classification datasets: Toyota Smarthome, Penn Action, NTU-RGB+D 60 and NTU-RGB+D 120.
연구 동기 및 목표
- 다양한 인간 토폴로지와 실제 노이즈에 견고한 스켈레톤 기반 행동 인식을 촉진한다.
- 다양한 잔(config) joints 구성으로도 일반화하는 토폴로지 비민감 프레임워크를 제안한다.
- 스켈레톤 기반 모델의 실세계 비디오로의 교차 도메인 전이 가능성을 연구한다.
- Posetics라는 대규모 실제 스켈레톤 데이터셋을 프리트레이닝용으로 도입한다.
- Posetics에서의 프리트레이닝이 다운스트림 실세계 벤치마크의 성능을 향상시킨다는 것을 입증한다.
제안 방법
- 고정된 스켈레톤 토폴로지를 대체하기 위해 균일하게 분포된 의존성 행렬을 초기화한다.
- 균일 초기화에서 다중 의존성 맵을 학습하기 위해 다중 헤드 집계를 적용한다.
- 다중 스케일의 시공간 특징을 포착하기 위해 공간 롱-쇼트 의존 단위(S-LSU)와 시간 롱-쇼트 의존 단위(T-LSU)를 사용한다.
- 행동별로 의존성 행렬을 동적으로 조절하기 위해 자기 주의 메커니즘을 도입한다.
- 최종 행동 예측을 위해 관절 특징과 뼈 특징의 이중 스트림 융합(joint과 bone, 두 스트림)을 사용한다.
- UNIK 백본을 Posetics에서 프리트레이닝한 뒤 대상 데이터셋에서 파인튜닝하여 전이 가능성을 평가한다.
실험 결과
연구 질문
- RQ1정해진 인간 토폴로지에 의존하지 않고도 UNIK가 효과적인 스켈레톤 기반 행동 인식을 달성할 수 있는가?
- RQ2실세계의 대규모 스켈레톤 데이터셋(Posetics)에서의 프리트레이닝이 다른 실세계 벤치마크로의 교차 데이터셋 전이 성능을 향상시키는가?
- RQ3UNIK이 교차 도메인 전이 설정에서 최첨단 GCN 기반 방법과 비교하여 어떠한 성능 차이를 보이는가?
- RQ4헤드 수를 늘리는 것이 일반화 및 정확도에 어떤 영향을 주는가?
주요 결과
- 균일 의존성 초기화와 다중 헤드 어텐션을 갖춘 UNIK이 교차 주제 벤치마크에서 고정 그래프 ST-GCN 기반선보다 우수한 성능을 보인다.
- Posetics에서의 프리트레이닝은 Smarthome과 Penn Action으로의 전이 시 성능을 크게 향상시키며 NTU-60/120에서도 경쟁력을 유지한다.
- Posetics 프리트레이닝을 적용한 UNIK은 여러 실세계 데이터셋에서 최첨단 또는 경쟁력 있는 결과를 달성하며 일반화가 강하게 나타난다.
- 헤드 수(N)를 증가시키면 데이터셋별 성능은 향상되지만 교차 데이터셋 일반화에는 해를 끼칠 수 있어 N=3을 균형 잡힌 설정으로 선정한다.
- Joint+Bone 이중 스트림 융합은 특히 Posetics 프리트레이닝 시 성능을 더욱 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.