QUICK REVIEW

[論文レビュー] Future Semantic Segmentation with Convolutional LSTM

Seyed shahabeddin Nabavi, Mrigank Rochan|arXiv (Cornell University)|Jul 20, 2018

Video Surveillance and Tracking Methods参考文献 17被引用数 31

ひとこと要約

本論文では、観測フレームからの空間時間的符号化を活用して将来のセマンティックセグメンテーションマップを予測する、ConvLSTMベースのモデルを提案する。Cityscapesデータセットにおいて、光学フローの教師あり学習を必要とせず、PSPNetを用いた双方向ConvLSTMを用いることで71.37 mIoUを達成し、最先端の手法を上回る性能を示した。

ABSTRACT

We consider the problem of predicting semantic segmentation of future frames in a video. Given several observed frames in a video, our goal is to predict the semantic segmentation map of future frames that are not yet observed. A reliable solution to this problem is useful in many applications that require real-time decision making, such as autonomous driving. We propose a novel model that uses convolutional LSTM (ConvLSTM) to encode the spatiotemporal information of observed frames for future prediction. We also extend our model to use bidirectional ConvLSTM to capture temporal information in both directions. Our proposed approach outperforms other state-of-the-art methods on the benchmark dataset.

研究の動機と目的

観測フレームに基づいて将来の動画フレームのセマンティックセグメンテーションを予測する課題に対処すること。
空間時間的依存関係をより効果的に捉えることで、将来のセマンティックセグメンテーションにおける時間的モデリングを向上させること。
誤差が生じやすく、追加のアノテーションを必要とする光学フロー推定に依存しないこと。
向上した将来予測性能を実現するため、双方向時間モデリングを検討すること。
エンド・トゥ・エンドでトレーニング可能なConvLSTMモジュールを用いて、将来のセマンティックセグメンテーションのための新たな最先端のベースラインを確立すること。

提案手法

複数の観測されたセグメンテーションマスク（例：S_{t-3} から S_t）から空間時間的特徴をエンコードするためにConvLSTMを用いる。
バックボーンネットワーク（Res101-FCN や PSPNet）から抽出された特徴マップの上に、ConvLSTM層をスタックすることで多段階の特徴学習を実施する。
現在のフレームに対して過去および未来の両方向からの時間的コンテキストを捉えるために、双方向ConvLSTMを導入する。
特徴マップの次元を合わせるために、1×1畳み込みとアップサンプリングを用い、連結処理およびその後の処理を実施する。
エンド・トゥ・エンドでトレーニングし、次の未観測フレーム（S_{t+1}）または3ステップ先（S_{t+3}）のセグメンテーションマスクを予測する。
分類のバランスを考慮した重み付けを施した交差エントロピー損失を用いて、セグメンテーション予測を最適化する。

実験結果

リサーチクエスチョン

RQ1ConvLSTMは、観測された動画フレームにおける空間時間的依存関係を、将来のセマンティックセグメンテーションに効果的にモデル化できるか？
RQ2一方向のモデリングと比較して、双方向ConvLSTMは将来のセグメンテーション予測性能を向上させるか？
RQ3光学フローの教師あり学習を必要としないモデルが、既存の最先端手法を上回る性能を示せるか？
RQ4本手法は、最後の入力をコピーするベースラインや、真値光学フローを用いる手法と比較してどのように差をつけるか？
RQ5PSPNetのような深層特徴エンコーダーを用いることで、Res101-FCNのような単純なエンコーダーと比較して、どの程度性能向上が見られるか？

主な発見

双方向ConvLSTMを用いた本手法は、PSPNetを用いて1ステップ先の将来予測において、Cityscapes検証セットで71.37 mIoUを達成し、先行する最先端手法を上回った。
光学フローを必要としないにもかかわらず、EpicFlowで教師あり学習された光学フローに依存するJinら（2017b）の手法（66.10 mIoU）を上回った。
アブレーションスタディの結果、ConvLSTM層を削除すると、性能は60.80 mIoU（Res101-FCN）および67.42 mIoU（PSPNet）に低下し、その重要性が裏付けられた。
双方向ConvLSTMを追加することで、一方向ConvLSTMと比較して性能が約5%向上し、時間的モデリングの向上が示された。
3ステップ先の予測において、双方向ConvLSTMモデルは60.06 mIoUを達成し、ベースライン（53.70 mIoU）およびS2S（59.40 mIoU）を著しく上回った。
定性的な結果から、特に移動する車両や歩行者などの複雑なシナリオにおいて、真値に近いセグメンテーションマスクが生成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。