QUICK REVIEW

[論文レビュー] Two-Stream Oriented Video Super-Resolution for Action Recognition

Haochen Zhang, Dong Liu|arXiv (Cornell University)|Mar 13, 2019

Advanced Image Processing Techniques参考文献 34被引用数 2

ひとこと要約

本稿では、二重ストリーム行動認識ネットワーク向けに最適化された2つの専用動画スーパーレゾリューション（SR）手法—空間指向SR（SoSR）と時間指向SR（ToSR）—を提案する。SoSRは、動きのある物体の再構成を向上させるために、光-flow誘導型重み付きMSE損失を用いる。一方、ToSRは、時間的連続性を強制するためにシames型ネットワークを採用する。両手法は、UCF101およびHMDB51で行動認識の精度を向上させる。

ABSTRACT

We study the video super-resolution (SR) problem for facilitating video analytics tasks, e.g. action recognition, instead of for visual quality. The popular action recognition methods based on convolutional networks, exemplified by two-stream networks, are not directly applicable on video of low spatial resolution. This can be remedied by performing video SR prior to recognition, which motivates us to improve the SR procedure for recognition accuracy. Tailored for two-stream action recognition networks, we propose two video SR methods for the spatial and temporal streams respectively. On the one hand, we observe that regions with action are more important to recognition, and we propose an optical-flow guided weighted mean-squared-error loss for our spatial-oriented SR (SoSR) network to emphasize the reconstruction of moving objects. On the other hand, we observe that existing video SR methods incur temporal discontinuity between frames, which also worsens the recognition accuracy, and we propose a siamese network for our temporal-oriented SR (ToSR) training that emphasizes the temporal continuity between consecutive frames. We perform experiments using two state-of-the-art action recognition networks and two well-known datasets--UCF101 and HMDB51. Results demonstrate the effectiveness of our proposed SoSR and ToSR in improving recognition accuracy.

研究の動機と目的

低解像度動画における二重ストリーム行動認識ネットワークの限界を是正するため、認識性能向上を目的とした動画スーパーレゾリューションの改善に取り組む。
標準的なSR手法が動きのある物体の再構成が不十分で時間的不連続性を引き起こすため、認識精度が低下することを認識する。
光-flow誘導型損失を用いて、動きに関連する領域の再構成を優先する空間指向SR（SoSR）ネットワークを開発する。
シames型学習戦略を用いて、連続するフレーム間の類似性を強制し、時間的整合性を向上させる時間指向SR（ToSR）ネットワークを設計する。
提案されたSR手法が、最先端の二重ストリーム行動認識フレームワークに統合された際に、認識精度を向上させることを実証する。

提案手法

光-flowを用いて重み付き平均二乗誤差損失を誘導する空間指向SR（SoSR）ネットワークを提案し、動きのある物体の再構成を強調する。
連続するフレーム間の類似性を強制し、時間的不連続性を低減するために、時間指向SR（ToSR）のためのシames型ネットワークアーキテクチャを導入する。
SoSRとToSRをそれぞれ空間ストリームおよび時間ストリームに別々に訓練し、二重ストリーム認識パイプラインと整合させる。
SoSRフレームワークにおいて、光-flowマップを監視信号として用い、動きの大きさに応じて損失寄与度を動的に重み付ける。
訓練済みのSoSRおよびToSRネットワークを用いて、二重ストリーム行動認識モデルに供給する前に低解像度動画をアップスケーリングする。
提案された損失関数を用いて、標準的なバックプロパゲーションにより両ネットワークをエンドツーエンドで最適化する。

実験結果

リサーチクエスチョン

RQ1視覚的品質ではなく、行動認識に特化した動画スーパーレゾリューションをどのように最適化できるか？
RQ2動きのある物体の再構成に重点を置くことで、低解像度動画における認識精度はどの程度向上するか？
RQ3シames型ネットワークに基づくSR学習戦略によって、フレーム間の時間的連続性を向上させられるか？
RQ4二重ストリーム行動認識の前処理として用いた場合、SoSRおよびToSRは標準的なSR手法と比べてどの程度優れているか？
RQ5SoSRとToSRの組み合わせが、標準ベンチマークで認識性能の向上を顕著にもたらすか？

主な発見

提案されたSoSRネットワークは、光-flow誘導型損失を用いて動きに影響を受ける領域の再構成に注力することで、顕著に認識精度を向上させる。
ToSRネットワークはフレーム間の時間的不連続性を低減し、滑らかな動画シーケンスを生成することで、行動認識に好影響を与える。
UCF101では、二重ストリームネットワークに統合された場合、SoSRとToSRの組み合わせがベースラインSR手法よりも高い認識精度を達成する。
HMDB51では、標準的なSRベースラインと比較して、本手法がより高い認識性能を達成しており、特に困難な行動認識シナリオで顕著である。
アブレーションスタディにより、SoSRおよびToSRが独立して性能向上に寄与しており、両者を併用した際に最も顕著な改善が得られると確認された。
SoSRにおける光-flowを用いた動的損失重み付けは、均一なMSE損失と比較して、行動に関連する領域の再構成がより正確であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。