[논문 리뷰] Unsupervised Learning of View-invariant Action Representations
본 논문은 소스 뷰로부터 교차 뷰 3D 모션을 예측하고 뷰 적대적 학습의 도움으로 뷰에 불변인 비디오 표현을 학습하는 비지도 프레임워크를 제안하며, 교차 뷰 및 교차 피실험자 행동 인식에서 강력한 성능을 보여준다.
The recent success in human action recognition with deep learning methods mostly adopt the supervised learning paradigm, which requires significant amount of manually labeled data to achieve good performance. However, label collection is an expensive and time-consuming process. In this work, we propose an unsupervised learning framework, which exploits unlabeled data to learn video representations. Different from previous works in video representation learning, our unsupervised learning task is to predict 3D motion in multiple target views using video representation from a source view. By learning to extrapolate cross-view motions, the representation can capture view-invariant motion dynamics which is discriminative for the action. In addition, we propose a view-adversarial training method to enhance learning of view-invariant features. We demonstrate the effectiveness of the learned representations for action recognition on multiple datasets.
연구 동기 및 목표
- 다중 뷰 비라벨 데이터 활용으로 행동 인식에서 라벨 의존도를 줄이는 동기를 제시한다.
- 소스 뷰로부터 여러 뷰의 3D 흐름을 예측할 수 있는 뷰 불변 모션 표현을 학습한다.
- 뷰 불변성을 촉진하기 위해 뷰 적대적 학습 목표를 적용한다.
- RGB, Depth, Flow 모달리티에서 교차 피실험자 및 교차 뷰 행동 인식에서의 효과를 입증한다.
제안 방법
- 다(view) 멀티-뷰 비디오 프레임을 CNN+BiLSTM 기반 인코더로 인코딩하여 모션에 민감한 특징을 추출한다.
- 뷰 특정 깊이 어 anchors를 사용하는 교차 뷰 디코더를 이용해 다른 뷰의 3D 흐름 시퀀스를 예측한다.
- 동일 뷰의 흐름을 재구성하는 재구성 디코더로 모션 다이나믹스 캡처를 강화한다.
- Gradient Reversal Layer를 갖는 뷰 분류기를 적용하여 뷰 불변 표현을 촉진하는 뚜렷한 학습(adversarial training)을 수행한다.
- 교차 뷰 흐름 예측, 흐름 재구성, 뷰 분류의 손실을 결합하여 엔드-투-엔드로 학습한다.
실험 결과
연구 질문
- RQ1비지도 모델이 교차 뷰 모션 예측을 통해 뷰 포인트 변경에 강인한 표현을 학습할 수 있는가?
- RQ2뷰 적대적 학습이 학습된 표현의 불변성과 식별력에 어떤 영향을 미치는가?
- RQ3학습된 표현이 RGB, Depth, Flow 모달리티에서 교차 피실험자 및 교차 뷰 행동 인식으로 효과적으로 이전될 수 있는가?
주요 결과
| 방법 | 교차 피실험자 RGB | 교차 피실험자 Depth | 교차 피실험자 Flow | 교차 뷰 RGB | 교차 뷰 Depth | 교차 뷰 Flow |
|---|---|---|---|---|---|---|
| proposed method w/o \\u03bb_recon & \\u03bb_cls | 0.0267 | 0.0244 | 0.0201 | 0.0265 | 0.0238 | 0.0199 |
| proposed method w/o \\u03bb_cls | 0.0259 | 0.0235 | 0.0198 | 0.0252 | 0.0223 | 0.0194 |
| proposed method | 0.0254 | 0.0229 | 0.0193 | 0.0248 | 0.0220 | 0.0193 |
- Flow 기반의 교차 뷰 예측이 RGB, Depth, Flow 중에서 가장 강하게 나타나며, 흐름이 뷰 불변 모션 정보를 더 많이 담고 있음을 시사한다.
- 흐름 재구성 및 뷰 적대적 학습의 도입으로 여러 모달리티에서 교차 뷰 흐름 예측이 향상된다.
- 비지도 학습으로 얻은 표현은 특히 흐름 입력과 함께 경쟁력 있는 행동 인식을 가능하게 하며, 감독 학습 평가 시 인코더를 미세조정하거나 고정하는 방식에서 이점이 있다.
- 해당 접근법은 여러 베이스라인보다 교차 피실험자 및 교차 뷰 정확도에서 우수한 성능을 보이며, 다른 모달리티를 활용한 최첨단 방법과 경쟁력 있는 결과를 달성한다.
- 다른 데이터셋(MSR-DailyActivity3D 및 Northwestern-UCLA MultiviewAction3D)으로의 일반화가 가능하며 미세 조정을 통해 도메인 간 일반화가 확인된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.