QUICK REVIEW

[論文レビュー] Video-Based Action Recognition Using Rate-Invariant Analysis of Covariance Trajectories

Zhengwu Zhang, Jingyong Su|arXiv (Cornell University)|Mar 23, 2015

Human Pose and Action Recognition参考文献 32被引用数 23

ひとこと要約

本稿では、動画ベースの行動認識のためのレート不変で内在的な手法を提案する。同手法は、対称正定値行列多様体（SPDM）上での共分散軌道を、軌道の出発点における再定義された接空間表現（TSRVFs）を用いてモデル化する。リーマンベクトル bundle 構造を活用し、再パラメータリゼーション下での商空間における測地線距離を計算することで、視覚的発話認識および手の動き認識において最先端の性能を達成した。OuluVSデータベースでは1NN認識率が78.6%に達し、先行手法より8.1%優れている。

ABSTRACT

Statistical classification of actions in videos is mostly performed by extracting relevant features, particularly covariance features, from image frames and studying time series associated with temporal evolutions of these features. A natural mathematical representation of activity videos is in form of parameterized trajectories on the covariance manifold, i.e. the set of symmetric, positive-definite matrices (SPDMs). The variable execution-rates of actions implies variable parameterizations of the resulting trajectories, and complicates their classification. Since action classes are invariant to execution rates, one requires rate-invariant metrics for comparing trajectories. A recent paper represented trajectories using their transported square-root vector fields (TSRVFs), defined by parallel translating scaled-velocity vectors of trajectories to a reference tangent space on the manifold. To avoid arbitrariness of selecting the reference and to reduce distortion introduced during this mapping, we develop a purely intrinsic approach where SPDM trajectories are represented by redefining their TSRVFs at the starting points of the trajectories, and analyzed as elements of a vector bundle on the manifold. Using a natural Riemannain metric on vector bundles of SPDMs, we compute geodesic paths and geodesic distances between trajectories in the quotient space of this vector bundle, with respect to the re-parameterization group. This makes the resulting comparison of trajectories invariant to their re-parameterization. We demonstrate this framework on two applications involving video classification: visual speech recognition or lip-reading and hand-gesture recognition. In both cases we achieve results either comparable to or better than the current literature.

研究の動機と目的

標準的な度合いを用いた場合に、実行レートのばらつきが軌道比較や分類を歪めるという課題に対処すること。
任意の基準点に依存しない、対称正定値行列多様体（SPDM）上での共分散軌道の比較のためのレート不変フレームワークを構築すること。
多様体構造を保ちながら、内在的な幾何学的手法による軌道の整合化を通じて、動画内の行動の正確な分類を可能にすること。
実世界の動画分類タスク（視覚的発話認識および手の動き認識）における本手法の有効性を実証すること。
固定基準点を用いる従来の外在的手法（TSRVFsの輸送）の代わりに、数値的に安定で内在的な代替手法を提供すること。

提案手法

各動画を、各フレームが対称正定値行列の空間内にパスを形成するSPDM多様体上でのパラメトリックな軌道として表現する。
TSRVF（輸送された平方根ベクトル場）表現を、軌道の出発点に固定することで、グローバルな基準フレームに依存しないように再定式化する。
SPDM多様体上のベクトルバンドルにリーマン計量を定義し、測地線パスおよび軌道間の距離を計算することで、再パラメータリゼーション（実行レート）に対して不変となるようにする。
測地線方程式に基づくシューティング法を用いて、軌道間の最適なワーピング関数および測地線距離を数値的に計算し、ペアワイズおよびグループワイズの整合化を可能にする。
出発点間の距離と、平行輸送下でのTSRVFの歪みを組み合わせた、レート不変な距離尺度 $ d_q $ を定義し、頑健な比較を可能にする。
最近傍分類器を用いて動画分類に本フレームワークを適用し、最適な時間ワーピング関数 $ ilde{ au} $ を用いて軌道を整合化することで、分類精度を向上させる。

実験結果

リサーチクエスチョン

RQ1どのようにして、実行レート（すなわち再パラメータリゼーション）に対して不変な方法で、SPDM多様体上での動画行動軌道を比較できるか？
RQ2ベクトルバンドルおよびSPDM上のリーマン計量に基づく内在的幾何フレームワークは、固定基準点に依存するTSRVF輸送に依存する外在的手法を上回ることができるか？
RQ3内在的レート不変整合化は、視覚的発話認識および手の動き認識タスクにおける分類精度をどの程度向上させるか？
RQ4時間的ずれが、共分散軌道解析における標準的距離尺度に与える影響は何か？そして、その影響を定量的に低減できるか？
RQ5完全に内在的な手法は、従来のTSRVFベースのアプローチで生じる基準点選択に起因する歪みや任意性を回避できるか？

主な発見

提案された内在的手法は、視覚的発話認識のOuluVSデータベースで1NN分類率78.6%を達成し、Suら[4]による先行手法より8.1%の向上を示した。
本手法のフレームワークを用いた整合化後、同じフレーズ（例：「excuse me」）の軌道間の平均距離が顕著に減少した。これは、$ d_c - d_q $ 差分のヒストグラムで示されており、軌道間分散の低減が確認された。
本手法は、整合化前後ともにSuら[4]のベースライン手法を上回り、整合化前は41.0%、整合化後は78.6%の認識率を示した。これにより、内在的レート不変性の有効性が裏付けられた。
本フレームワークは、最適な時間ワーピング関数 $ ilde{ au} $ を用いた、動画軌道の正確なペアワイズ登録を可能にした。図8(a)に示すように、時間的差異が効果的に是正された。
自然なリーマン計量を備えたベクトルバンドル構造の使用により、任意の基準点に依存せず、測地線計算とレート不変比較が可能となり、軌道解析における歪みが低減された。
結果から、時間的ずれが分散を増大させ分類性能を低下させることを確認した。本手法は、内在的幾何学によるレート不変性を強制することで、この問題を効果的に緩和した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。