QUICK REVIEW

[논문 리뷰] Video-Based Action Recognition Using Rate-Invariant Analysis of Covariance Trajectories

Zhengwu Zhang, Jingyong Su|arXiv (Cornell University)|2015. 03. 23.

Human Pose and Action Recognition참고 문헌 32인용 수 23

한 줄 요약

이 논문은 대칭 양의 정부호 행렬 다양체(Symmetric Positive-Definite Matrix Manifold, SPDM) 위에서 공분산 궤적을 모델링하고 궤적의 시작점에서 재정의된 탄젠트 공간 표현(TSRVFs)을 사용하여 영상 기반 동작 인식을 위한 비율에 불변이며 내재된 방법을 제안한다. 재파arameterization 하에서 몫 공간에서 지오데식 거리를 계산하고 리만 다발의 구조를 활용함으로써, 시각적 발화 및 손동작 인식에서 최신 기술 수준(SOTA)의 성능을 달성하였으며, OuluVS 데이터베이스에서 1NN 인식률이 78.6%로 이전 방법보다 8.1% 높았다.

ABSTRACT

Statistical classification of actions in videos is mostly performed by extracting relevant features, particularly covariance features, from image frames and studying time series associated with temporal evolutions of these features. A natural mathematical representation of activity videos is in form of parameterized trajectories on the covariance manifold, i.e. the set of symmetric, positive-definite matrices (SPDMs). The variable execution-rates of actions implies variable parameterizations of the resulting trajectories, and complicates their classification. Since action classes are invariant to execution rates, one requires rate-invariant metrics for comparing trajectories. A recent paper represented trajectories using their transported square-root vector fields (TSRVFs), defined by parallel translating scaled-velocity vectors of trajectories to a reference tangent space on the manifold. To avoid arbitrariness of selecting the reference and to reduce distortion introduced during this mapping, we develop a purely intrinsic approach where SPDM trajectories are represented by redefining their TSRVFs at the starting points of the trajectories, and analyzed as elements of a vector bundle on the manifold. Using a natural Riemannain metric on vector bundles of SPDMs, we compute geodesic paths and geodesic distances between trajectories in the quotient space of this vector bundle, with respect to the re-parameterization group. This makes the resulting comparison of trajectories invariant to their re-parameterization. We demonstrate this framework on two applications involving video classification: visual speech recognition or lip-reading and hand-gesture recognition. In both cases we achieve results either comparable to or better than the current literature.

연구 동기 및 목표

표준 거리 측정법을 사용할 경우 실행 속도의 변동성이 궤적 비교와 분류에 영향을 주는 영상 동작에서의 변수 실행 속도 문제를 해결한다.
임의의 기준점에 의존하지 않고 대칭 양의 정부호 행렬 다양체(SPDM) 위에서 공분산 궤적을 비교하기 위한 비율에 불변인 프레임워크를 개발한다.
다양체의 기하학적 구조를 유지하는 내재적 기하 방법을 통해 영상의 동작을 정확하게 분류할 수 있도록 궤적을 정렬한다.
실제 영상 분류 작업인 시각적 발화 인식과 손동작 인식에 대해 제안된 방법의 효과성을 입증한다.
고정된 기준점을 사용하는 기존 외재적 방법의 문제를 피하기 위해 수치적으로 안정된 내재적 대안을 제공한다.

제안 방법

각 영상을 대칭 양의 정부호 행렬의 공간에서 경로를 형성하는 공분산 행렬로 구성된 매개변수화된 궤적으로 표현한다.
TSRVF(운반된 제곱근 벡터장) 표현을 궤적의 시작점에 기반하여 재정의함으로써 전역 기준 프레임에 대한 의존도를 제거한다.
SPDM 다양체 위의 벡터 다발에 리만 메트릭을 정의하여 궤적 간의 지오데식 경로와 거리를 계산함으로써 재파arameterization에 대해 불변성을 확보한다.
지오데식 방정식에 기반한 쇼팅 방법을 사용하여 궤적 간의 최적의 왜곡 함수와 지오데식 거리를 수치적으로 계산함으로써 쌍별 및 군집별 정렬을 가능하게 한다.
시작점 간의 거리와 평행 이동 하에서 TSRVFs의 왜곡을 통합하여 비율에 불변인 거리 측정법 $ d_q $를 정의함으로써 강건한 비교를 가능하게 한다.
최적의 시간 왜곡 함수 $ \tilde{\tau} $를 통해 궤적을 정렬하고, 최근접 이웃 분류기로 영상 분류에 적용함으로써 정확도를 향상시킨다.

실험 결과

연구 질문

RQ1실행 속도(즉, 재파arameterization)에 대해 불변이 되는 방식으로 SPDM 다양체 위의 영상 동작 궤적을 어떻게 비교할 수 있는가?
RQ2고정된 기준점을 사용하는 기존의 TSRVF 운반 방법에 비해, 벡터 다발과 SPDM 위의 리만 메트릭에 기반한 내재적 기하 프레임워크는 성능에서 뛰어나게 작용할 수 있는가?
RQ3내재적 비율에 불변인 정렬이 시각적 발화 및 손동작 인식 작업에서 분류 정확도를 얼마나 향상시키는가?
RQ4표준 거리 측정법에서 공분산 궤적 분석에 있어 시간적 비일치가 어떤 영향을 미치며, 이를 어떻게 정량적으로 줄일 수 있는가?
RQ5순수하게 내재적인 방법은 이전의 TSRVF 기반 접근법에서 기인하는 기준점 선택의 왜곡과 임의성 문제를 피할 수 있는가?

주요 결과

제안된 내재적 방법은 시각적 발화 인식에서 OuluVS 데이터베이스에서 1NN 분류 정확도 78.6%를 달성하였으며, Su 등 [4]의 이전 최신 기술 수준 방법보다 8.1% 향상되었다.
제안된 프레임워크를 사용해 정렬한 후, 동일한 문장(예: “excuse me”)의 궤적 간 평균 거리가 크게 감소하였으며, $ d_c - d_q $ 차이의 히스토그램을 통해 궤적 간 분산 감소가 확인되었다.
정렬 이전과 이후 모두 제안된 방법이 Su 등 [4]의 베이스라인 방법을 능가했으며, 정렬 이전 정확도는 41.0%였고 정렬 이후에는 78.6%로 상승하여 내재적 비율에 불변성의 효과를 입증하였다.
최적의 시간 왜곡 함수 $ \tilde{\tau} $를 통해 영상 궤적의 정확한 쌍별 정렬이 가능하며, 그림 8(a)에서 시간적 차이가 효과적으로 보정된 것으로 확인되었다.
자연스러운 리만 메트릭을 가진 벡터 다발 구조를 사용함으로써 임의의 기준점 없이 지오데식 계산과 비율에 불변인 비교가 가능해졌으며, 궤적 분석에서의 왜곡이 감소하였다.
결과적으로 시간적 비일치가 분산을 증가시키고 분류 성능을 떨어뜨리는 것으로 확인되었으며, 제안된 방법은 내재 기하학적 방법을 통해 비율에 불변성을 강제함으로써 이를 효과적으로 완화함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.