Skip to main content
QUICK REVIEW

[論文レビュー] Frame-To-Frame Consistent Semantic Segmentation

Manuel Rebol, Patrick Knöbelreiter|arXiv (Cornell University)|Aug 3, 2020
Advanced Neural Network Applications参考文献 31被引用数 4
ひとこと要約

本論文では、ConvLSTMを用いた特徴量のフレーム間伝搬と、新たな不一致損失関数の導入により、時間的整合性と精度を向上させる動画ベースのセマンティックセグメンテーション手法を提案する。Cityscapesデータセットにおいて、単一フレーム推論に使用するESPNetと比較して、mIoUを45.2%から57.9%に向上させ、フレーム間の不一致を71.1%削減した。

ABSTRACT

In this work, we aim for temporally consistent semantic segmentation throughout frames in a video. Many semantic segmentation algorithms process images individually which leads to an inconsistent scene interpretation due to illumination changes, occlusions and other variations over time. To achieve a temporally consistent prediction, we train a convolutional neural network (CNN) which propagates features through consecutive frames in a video using a convolutional long short term memory (ConvLSTM) cell. Besides the temporal feature propagation, we penalize inconsistencies in our loss function. We show in our experiments that the performance improves when utilizing video information compared to single frame prediction. The mean intersection over union (mIoU) metric on the Cityscapes validation set increases from 45.2 % for the single frames to 57.9 % for video data after implementing the ConvLSTM to propagate features trough time on the ESPNet. Most importantly, inconsistency decreases from 4.5 % to 1.3 % which is a reduction by 71.1 %. Our results indicate that the added temporal information produces a frame-to-frame consistent and more accurate image understanding compared to single frame processing. Code and videos are available at https://github.com/mrebol/f2f-consistent-semantic-segmentation

研究の動機と目的

  • 照明の変化、隠蔽、動きに起因する動画フレーム間の時間的整合性の欠如を解消すること。
  • 将来のフレーム情報に依存せずに、動画シーケンスにおける予測精度と整合性を向上させること。
  • 既存の単一フレームCNNを用いて、ロボットや自動運転車両向けにリアルタイムかつ軽量なセマンティックセグメンテーションを実現すること。
  • 再帰的時間的モデリングを追加することで、任意の事前学習済み単一フレームCNNアーキテクチャに一般化可能な手法を構築すること。
  • Carlaシミュレータからの合成データを活用して、アノテーションの手作業負担を最小限に抑えること。

提案手法

  • ESPNetアーキテクチャにConvLSTM層を統合し、過去のフレームからの高レベル特徴量を現在のフレームに伝搬する。
  • ConvLSTMセル内で標準的な畳み込み演算を用い、L1b層に配置することで、より深い高レベル表現からの特徴量伝搬を実現する。
  • 連続するフレームの予測値の二乗差に基づく、新たな不一致損失関数を設計し、時間的差異をペナルティ化する。
  • 分類用に重み付き交差エントロピー損失を最適化し、不一致損失にはλincons = 10のハイパーパrameterを用いて、精度と整合性のバランスを取る。
  • 複数段階の訓練プロトコルを採用:まずLSTMパラメータのみを微調整し、その後データオーグメンテーションと合成データを用いて全パラメータを共同で訓練する。
  • 事前学習済みのXceptionモデルを用いて、Carlaシミュレータから得た合成動画データの正確な疑似ラベルを生成し、アノテーションコストを削減する。

実験結果

リサーチクエスチョン

  • RQ1過去のフレームからの再帰的特徴量伝搬を組み込むことで、動画セマンティックセグメンテーションにおける時間的整合性を顕著に向上させることができるか?
  • RQ2ConvLSTM層の配置位置と種別が、動画セマンティックセグメンテーションの性能と整合性に与える影響は何か?
  • RQ3提案された不一致損失関数は、分類精度を劣化させることなく、フレーム間の予測差異をどの程度低減できるか?
  • RQ4アーキテクチャの再設計を伴わずに、ESPNet やカスタムの SSNet といった異なるCNNアーキテクチャへ一般化可能か?
  • RQ5Carlaシミュレータからの合成データは、モデルの一般化性と整合性向上にどの程度有効か?

主な発見

  • 提案手法により、Cityscapes検証セットにおけるmIoUは、単一フレームのESPNetの45.2%から、ConvLSTMと不一致損失を用いた動画データ処理で57.9%に向上した。
  • 時間的整合性の低下は4.5%から1.3%にまで低下し、71.1%の減少を示し、フレーム間の整合性向上が顕著に確認された。
  • ConvLSTM内部に標準畳み込みを用いることで、特にパラメトリックReLU活性化関数と組み合わせた場合、深度分離畳み込みよりも優れた性能を発揮した。
  • L1b層(高レベル特徴量)にConvLSTMを配置した場合、より早いまたは遅い層に配置した場合と比較して優れた性能を示し、高レベル特徴量が時間的整合性に有効であることが示された。
  • λincons = 10の不一致損失は、精度と整合性の間で良好なトレードオフを実現しており、定性的な結果でもセグメンテーションのフレッシャー(チラツキ)が減少していることが確認された。
  • 実際のCityscapesデータとCarlaシミュレータからの合成動画データを組み合わせることで、さらなる整合性と一般化性能の向上が得られたが、主な効果は時間的モデリング部の貢献に起因していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。