[论文解读] Video-Based Action Recognition Using Rate-Invariant Analysis of Covariance Trajectories
该论文提出了一种速率不变的、内在的视频动作识别方法,通过在对称正定矩阵流形(SPDM)上建模协方差轨迹,并在轨迹起点使用重新定义的切空间表示(TSRVFs),实现了对视频动作的内在几何比较。通过利用黎曼向量丛结构,并在重参数化下的商空间中计算测地线距离,该方法在视觉语音和手势识别任务中取得了最先进性能,在OuluVS数据集上达到78.6%的1NN识别率,相比之前方法提高了8.1%。
Statistical classification of actions in videos is mostly performed by extracting relevant features, particularly covariance features, from image frames and studying time series associated with temporal evolutions of these features. A natural mathematical representation of activity videos is in form of parameterized trajectories on the covariance manifold, i.e. the set of symmetric, positive-definite matrices (SPDMs). The variable execution-rates of actions implies variable parameterizations of the resulting trajectories, and complicates their classification. Since action classes are invariant to execution rates, one requires rate-invariant metrics for comparing trajectories. A recent paper represented trajectories using their transported square-root vector fields (TSRVFs), defined by parallel translating scaled-velocity vectors of trajectories to a reference tangent space on the manifold. To avoid arbitrariness of selecting the reference and to reduce distortion introduced during this mapping, we develop a purely intrinsic approach where SPDM trajectories are represented by redefining their TSRVFs at the starting points of the trajectories, and analyzed as elements of a vector bundle on the manifold. Using a natural Riemannain metric on vector bundles of SPDMs, we compute geodesic paths and geodesic distances between trajectories in the quotient space of this vector bundle, with respect to the re-parameterization group. This makes the resulting comparison of trajectories invariant to their re-parameterization. We demonstrate this framework on two applications involving video classification: visual speech recognition or lip-reading and hand-gesture recognition. In both cases we achieve results either comparable to or better than the current literature.
研究动机与目标
- 解决视频动作中执行速率可变的问题,该问题在使用标准度量时会扭曲轨迹比较与分类。
- 开发一种在对称正定矩阵流形(SPDM)上比较协方差轨迹的速率不变框架,且不依赖于任意参考点。
- 通过保持流形结构的内在几何方法对齐轨迹,实现视频中动作的准确分类。
- 在真实世界视频分类任务中验证该方法的有效性:视觉语音识别与手势识别。
- 提供一种数值稳定、内在的替代方案,以取代现有依赖固定参考点的外在方法(如TSRVFs的传输)
提出的方法
- 将每段视频表示为SPDM流形上的参数化轨迹,其中每一帧贡献一个协方差矩阵,形成在对称正定矩阵空间中的路径。
- 通过将TSRVF(传输平方根向量场)表示锚定在轨迹起点,重新表述该表示,从而消除对全局参考框架的依赖。
- 在SPDM流形上的向量丛上定义黎曼度量,以计算轨迹之间的测地线路径与距离,确保对重参数化(执行速率)的不变性。
- 基于测地线方程使用射击法,数值计算最优形变函数与轨迹间的测地线距离,实现成对与群组对齐。
- 构建一个速率不变的距离度量 $ d_q $,其结合了起点之间距离与TSRVF在平行传输下的形变,实现鲁棒比较。
- 使用最近邻分类器将该框架应用于视频分类,通过最优时间形变函数 $ ilde{ au} $ 对齐轨迹,从而提升分类准确率。
实验结果
研究问题
- RQ1如何在SPDM流形上比较视频动作轨迹,使其对执行速率(即重参数化)保持不变?
- RQ2基于向量丛与SPDM上黎曼度量的内在几何框架,是否能优于依赖固定参考点进行TSRVF传输的外在方法?
- RQ3内在速率不变对齐在视觉语音与手势识别任务中的分类准确率提升程度如何?
- RQ4时间错位对标准距离度量在协方差轨迹分析中的影响是什么?能否实现定量减少?
- RQ5纯内在方法是否能避免先前基于TSRVF方法中因参考点选择而引入的失真与任意性?
主要发现
- 所提出的内在方法在OuluVS数据集上对视觉语音识别的1NN分类率达到78.6%,相比Su等人[4]的先前最先进方法提升了8.1%。
- 通过所提框架对齐后,相同短语(如“excuse me”)的轨迹间平均距离显著降低,如 $ d_c - d_q $ 差异的直方图所示,证实了轨迹间方差的减少。
- 该方法在对齐前后均优于Su等人[4]的基线方法,对齐前识别率为41.0%,对齐后提升至78.6%,证明了内在速率不变性的有效性。
- 该框架可通过最优时间形变函数 $ ilde{ au} $ 实现视频轨迹的精确成对配准,如图8(a)所示,时间差异被有效校正。
- 使用具有自然黎曼度量的向量丛结构,可在无需任意参考点的情况下实现测地线计算与速率不变比较,从而减少轨迹分析中的失真。
- 结果证实,时间错位会增加方差并降低分类性能;所提方法通过内在几何强制实现速率不变性,有效缓解了该问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。