QUICK REVIEW

[論文レビュー] FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras

Shanghang Zhang, Guanhang Wu|arXiv (Cornell University)|Jul 29, 2017

Video Surveillance and Tracking Methods参考文献 25被引用数 23

ひとこと要約

本稿では、完全畳み込みネットワーク（FCN）とリーマン・リサルト・リカレントニューラルネットワーク（rLSTM）を組み合わせた深層時空間ニューラルネットワーク、FCN-rLSTMを提案する。この手法は、低品質な都市監視カメラ映像における車両数のカウントを目的としている。累積密度マップを参照して残差学習を用いることで、時系列的ダイナミクスをモデル化し、ベンチマークデータセット上で平均絶対誤差（MAE）を最大42％まで低減するとともに、学習を5倍高速化し、低解像度、低フレームレート、高オクルージョン状況下でも高いロバスト性を示している。

ABSTRACT

In this paper, we develop deep spatio-temporal neural networks to sequentially count vehicles from low quality videos captured by city cameras (citycams). Citycam videos have low resolution, low frame rate, high occlusion and large perspective, making most existing methods lose their efficacy. To overcome limitations of existing methods and incorporate the temporal information of traffic video, we design a novel FCN-rLSTM network to jointly estimate vehicle density and vehicle count by connecting fully convolutional neural networks (FCN) with long short term memory networks (LSTM) in a residual learning fashion. Such design leverages the strengths of FCN for pixel-level prediction and the strengths of LSTM for learning complex temporal dynamics. The residual learning connection reformulates the vehicle count regression as learning residual functions with reference to the sum of densities in each frame, which significantly accelerates the training of networks. To preserve feature map resolution, we propose a Hyper-Atrous combination to integrate atrous convolution in FCN and combine feature maps of different convolution layers. FCN-rLSTM enables refined feature representation and a novel end-to-end trainable mapping from pixels to vehicle count. We extensively evaluated the proposed method on different counting tasks with three datasets, with experimental results demonstrating their effectiveness and robustness. In particular, FCN-rLSTM reduces the mean absolute error (MAE) from 5.31 to 4.21 on TRANCOS, and reduces the MAE from 2.74 to 1.53 on WebCamT. Training process is accelerated by 5 times on average.

研究の動機と目的

既存の手法が失敗する低解像度、低フレームレート、高オクルージョン状況下の都市監視カメラ映像における正確な車両数のカウントに課題に取り組むこと。
限られた動きと解像度でも、連続する映像フレーム間の時系列的相関を活用して、カウント精度を向上させること。
車両密度とグローバルカウントを同時に推定できる、エンドツーエンドで学習可能な時空間的深層学習フレームワークを構築すること。
グローバル車両数の回帰問題を、累積密度和を基準とした残差関数の学習に再定式化することで、学習速度を向上させること。
異なる映像品質と時系列的一致性を示す多様な交通シーンとデータセットにおいて、強力な性能を発揮すること。

提案手法

FCN-rLSTMは、ピクセル単位の車両密度推定に完全畳み込みネットワーク（FCN）を統合し、時系列的ダイナミクスをモデル化するためにスタックされた長短記憶ネットワーク（LSTM）を用いる。
リーマン学習接続により、グローバル車両数の回帰問題が、フレーム全体の密度マップの和を基準とした残差関数の学習に再定式化され、学習の安定性と速度が向上する。
ハイパーオーバーオアス（Hyper-Atrous）コンビネーションは、FCNにおける拡張（アトロス）畳み込みと、複数の畳み込み層からの特徴マップの融合を統合し、空間解像度を保持するとともに特徴表現を強化する。
ネットワークはフレームを逐次処理し、FCNの出力（密度マップ）をLSTMに供給し、残差カウントを予測する。これらの値は累積密度と合算され、最終的な車両数が得られる。
全アーキテクチャはエンドツーエンドで学習可能であり、入力の生画像から直接グローバル車両数への最適化が可能である。
時系列的相関があるデータセットにはFCN-rLSTM、ないデータセットにはFCN-HAの構成を選択することで、適応可能である。

実験結果

リサーチクエスチョン

RQ1低フレームレートで高オクルージョンが生じる低品質な都市監視カメラ映像において、深層時空間ネットワークアーキテクチャが、車両数のダイナミクスを効果的にモデル化できるか？
RQ2FCNとLSTMの間にリーマン学習を組み込むことで、車両数のカウントタスクにおける学習速度と収束性が向上するか？
RQ3拡張畳み込みとマルチスケール特徴マップの統合が、低解像度の動画入力における特徴表現を強化できるか？
RQ4多様なデータセットにおいて、最先端の手法と比較して、本手法の正確性とロバスト性はどの程度優れているか？
RQ5動きと解像度が制限される状況下で、連続フレーム間の時系列的相関が、カウント性能をどの程度向上させるか？

主な発見

TRANCOSデータセットでは、MAEを5.31から4.21に低減し、最良のベースラインと比較して20.7％の改善を達成した。
WebCamTデータセットでは、MAEを2.74から1.53に低減し、相対的な改善率は44.2％に達した。
非残差ベースラインと比較して、学習時間の平均速度が5倍向上した。これは、残差学習の定式化によるものである。
UCSD歩行者カウントデータセットでは、MAEが1.54、MSEが3.02を記録し、すべてのベースライン手法およびFCN-HA構成を上回った。
モデルは強力な汎化性能を示し、物体のスケールやシーンの複雑さの違いにもかかわらず、車両および歩行者カウントタスクの両方で競争力のある性能を発揮した。
アブレーションスタディにより、LSTMによる時系列モデリングが、順序的整合性を持つデータセットにおいて顕著に性能向上をもたらすことが確認され、低品質動画における時系列相関の重要性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。