Skip to main content
QUICK REVIEW

[論文レビュー] End to End Video Segmentation for Driving : Lane Detection For Autonomous Car

Wenhui Zhang, Tejas Mahale|arXiv (Cornell University)|Dec 13, 2018
Autonomous Vehicle Technology and Safety参考文献 6被引用数 25
ひとこと要約

本論文は、残差ベースの境界精錬とAdam最適化を組み合わせたグローバル畳み込みネットワーク(GCN)を用いた、自律走行車両向けのエンドツーエンド動画セグメンテーションフレームワークを提案する。このシステムは、車両からのリアルタイム動画ストリーミングをエッジサーバーに送信し、GPU加速によるトレーニングを実施した後、最適化されたモデルを再び車両にデプロイする。これにより、多様な条件下でもテストMSEが57.5875に達し、最小限の過学習が確認された。

ABSTRACT

Safety and decline of road traffic accidents remain important issues of autonomous driving. Statistics show that unintended lane departure is a leading cause of worldwide motor vehicle collisions, making lane detection the most promising and challenge task for self-driving. Today, numerous groups are combining deep learning techniques with computer vision problems to solve self-driving problems. In this paper, a Global Convolution Networks (GCN) model is used to address both classification and localization issues for semantic segmentation of lane. We are using color-based segmentation is presented and the usability of the model is evaluated. A residual-based boundary refinement and Adam optimization is also used to achieve state-of-art performance. As normal cars could not afford GPUs on the car, and training session for a particular road could be shared by several cars. We propose a framework to get it work in real world. We build a real time video transfer system to get video from the car, get the model trained in edge server (which is equipped with GPUs), and send the trained model back to the car.

研究の動機と目的

  • 変動する道路状況や天候条件下でも、正確かつリアルタイムなレーン検出を実現するための課題に対処すること。
  • 車両内のハードウェア制限を克服するため、GPU負荷の高いトレーニングをエッジサーバーにオフロードしつつ、リアルタイム推論能力を維持すること。
  • GCNアーキテクチャ内での残差ベースの境界精錬技術とAdam最適化を用いて、セグメンテーション精度を向上させること。
  • リソース制限のある車両に適したモデルを効率的にデプロイ可能なフレームワークを開発すること。
  • MSE や MAE といった定量的指標を用いて、多様な環境条件下での性能を評価すること。

提案手法

  • セマンティックセグメンテーションとしてのレーンマークの検出に、グローバル畳み込みネットワーク(GCN)を採用し、分類と局所化をエンドツーエンドで統合する。
  • 色ベースのセグメンテーションを用いて、レーンマークと背景、他の道路オブジェクトを区別し、強度と色彩度の特徴を活用する。
  • エンコーダ・デコーダアーキテクチャは、バッチ正規化とマックスプーリングを伴う畳み込み層で構成され、フィルタ数を段階的に増加(8, 16, 20, 32)させつつ、空間解像度を低下させる。
  • 予測されたレーン境界のエッジ精度を向上させるために、残差ベースの境界精錬を適用する。
  • Adam最適化器を用い、グローバルバッチサイズ64、初期学習率0.001、重み減衰0.9、モーメンタム0.999を設定する。
  • Raspberry Piに搭載されたカメラから得られる動画をリアルタイムでエッジサーバーにストリーミング送信し、トレーニングを実施。その後、最適化されたモデルを車両に再送信する。

実験結果

リサーチクエスチョン

  • RQ1カラー特徴のみを用いて、多様な実世界の走行条件下でも高精度なレーン検出をGCNベースのモデルが達成できるか?
  • RQ2標準的なセグメンテーションネットワークと比較して、残差ベースの境界精錬は予測されたレーン境界の精度をどの程度向上させるか?
  • RQ3GPU能力が限られた車両に軽量モデルをデプロイする際、エッジサーバーでトレーニングを行うことによる性能のトレードオフは何か?
  • RQ4提案されたリアルタイム動画転送およびモデル更新パイプラインは、自律走行車両におけるディープラーニングモデルの実用的デプロイをどの程度可能にするか?
  • RQ5MSE と MAE の指標が、トレーニング、検証、テストセット間でどのように比較されるか。これは汎化性能と過学習の兆候を示唆するか?

主な発見

  • テストセットにおける平均二乗誤差(MSE)は57.5875に達し、良好な汎化性能と最小限の過学習を示した。
  • 検証MSE(61.4360)とテストMSE(57.5875)の値が近接しており、安定した性能と最小限の過学習を示している。
  • テストセットにおける平均絶対誤差(MAE)は2.2104であり、レーン境界予測のピクセルレベルでの高い正確性を確認した。
  • FCN-8s(MSE: 65.3)やDeepLabv2-CRF(MSE: 70.4)といった複数のSOTA手法と比較して、同じテストセットで優れた性能を示した。
  • トレーニング損失は継続的に減少したが、40イテレーション目以降に検証損失が上昇し始め、過学習を防ぐために40エポックでエアリー・ストッピングを実施した。
  • テスト画像における可視的比較から、モデルが車両の形状とレーン境界構造の両方を正確に捉えていることが確認され、個々のテスト画像におけるMSEは48.8590および63.3626であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。