[논문 리뷰] TRec: Learning Hand-Object Interactions through 2D Point Track Motion
TRec은 Transformer에서 이미지 프레임과 함께 2D에서 무작위로 샘플링된 포인트 트랙을 사용하여 명시적 손/물체 탐지 없이 손-물체 행동 인식을 수행하며, Something-Something-v2에서 RGB만 사용하는 baselines에 비해 이점을 보입니다.
We present a novel approach for hand-object action recognition that leverages 2D point tracks as an additional motion cue. While most existing methods rely on RGB appearance, human pose estimation, or their combination, our work demonstrates that tracking randomly sampled image points across video frames can substantially improve recognition accuracy. Unlike prior approaches, we do not detect hands, objects, or interaction regions. Instead, we employ CoTracker to follow a set of randomly initialized points through each video and use the resulting trajectories, together with the corresponding image frames, as input to a Transformer-based recognition model. Surprisingly, our method achieves notable gains even when only the initial frame and the point tracks are provided, without incorporating the full video sequence. Experimental results confirm that integrating 2D point tracks consistently enhances performance compared to the same model trained without motion information, highlighting their potential as a lightweight yet effective representation for hand-object action understanding.
연구 동기 및 목표
- 명시적 손/물체 탐지나 RGB-만 큼의 단서에 의존하지 않고 손-물체 행동 인식을 Motivating.
- 2D 포인트 트랙이 미세한 행동에 유의미한 모션 정보를 제공하는지 조사.
- 포인트 트랙과 이미지 특징을 Transformer 기반 모델에 통합하는 효과를 입증합니다.
제안 방법
- 비디오당 900개의 무작위 2D 포인트를 샘플링하고 CoTracker로 추적하여 포인트 트랙을 얻습니다.
- 가벼운 이미지 인코더(ResNet18)로 프레임 특징을 추출하고 이를 포인트 트랙과 함께 Transformer에 입력합니다.
- 다중-헤드 어텐션 풀링 레이어를 사용하여 Transformer 출력을 집계합니다.
- 교차 엔트로피 손실로 학습된 MLP 분류 헤드를 사용하여 동작을 예측합니다.
- 동일한 구조 및 학습 규칙 하에서 트랙 인식 모델(TRec)과 RGB-만의 baselines을 비교합니다.

실험 결과
연구 질문
- RQ12D 포인트 트랙이 명시적 손/물체 탐지 없이도 손-물체 인식에 유용한 보완 모션 큐를 제공할 수 있는가?
- RQ2Something-Something-v2에서 2D 포인트 트랙의 도입이 인식 정확도에 어떤 영향을 미치는가?
- RQ3추적 포인트의 수가 성능에 어떤 영향을 미치는가?
- RQ4배경 모션이 egocentric 비디오의 행동 인식에 기여하는가, KDE 기반 필터링은 성능에 어떤 영향을 주는가?
- RQ5단일 이미지 입력으로도 모션 트래젝터리를 활용한 행동 인식이 가능한가?
주요 결과
| Model | Top-1 | Top-5 |
|---|---|---|
| TRec | 61.10 ± 8.66 | 83.95 ± 6.62 |
| baseline | 30.27 ± 8.05 | 53.24 ± 8.75 |
- TRec은 Something-Something-v2에서 RGB-만 baselines보다 유의하게 우수합니다(Top-1 61.10% 대 30.27% RGB 단독).
- 50개 이상의 포인트에서 성능은 안정적으로 유지되며, 100개를 넘기면 이익이 감소하고 25개 미만에서 정확도가 저하됩니다.
- 배경 모션은 행동 인식에 의미 있게 기여합니다; 포인트를 KDE로 필터링하면 정확도가 감소합니다.
- 초기 프레임만을 사용하고 포인트 트랙을 더해도 이 작업에서 전체 비디오로 학습된 RGB baselines를 능가할 수 있습니다.
- 단일 이미지 평가에서 모션 트래젝토리는 손/물체가 보이지 않더라도 행동 인식에 강력한 단서를 제공합니다.
- 포인트 트랙으로 포착된 배경 및 모션 큐는 명시적 손/물체 탐지 없이도 견고한 인식을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.