QUICK REVIEW

[論文レビュー] RESA: Recurrent Feature-Shift Aggregator for Lane Detection

Zhengkai Tu, Hao Fang|arXiv (Cornell University)|Aug 31, 2020

Autonomous Vehicle Technology and Safety参考文献 27被引用数 27

ひとこと要約

本稿では、縦方向および横方向に繰り返し特徴マップをシフトして集約することで、長距離の空間的依存関係を捉えることで、レーン検出を向上させる再帰的特徴シフト集約器であるRESAを提案する。CULaneでは75.3のF1スコア、Tusimpleでは96.8%の精度を達成し、レーン形状の事前知識を効果的にモデル化し、特徴の並列的かつ効率的な伝搬を可能にすることで、最先端の性能を実現した。

ABSTRACT

Lane detection is one of the most important tasks in self-driving. Due to various complex scenarios (e.g., severe occlusion, ambiguous lanes, etc.) and the sparse supervisory signals inherent in lane annotations, lane detection task is still challenging. Thus, it is difficult for the ordinary convolutional neural network (CNN) to train in general scenes to catch subtle lane feature from the raw image. In this paper, we present a novel module named REcurrent Feature-Shift Aggregator (RESA) to enrich lane feature after preliminary feature extraction with an ordinary CNN. RESA takes advantage of strong shape priors of lanes and captures spatial relationships of pixels across rows and columns. It shifts sliced feature map recurrently in vertical and horizontal directions and enables each pixel to gather global information. RESA can conjecture lanes accurately in challenging scenarios with weak appearance clues by aggregating sliced feature map. Moreover, we propose a Bilateral Up-Sampling Decoder that combines coarse-grained and fine-detailed features in the up-sampling stage. It can recover the low-resolution feature map into pixel-wise prediction meticulously. Our method achieves state-of-the-art results on two popular lane detection benchmarks (CULane and Tusimple). Code has been made available at: https://github.com/ZJULearning/resa.

研究の動機と目的

深刻な隠蔽、曖昧なマークイング、および疎な教師信号を伴う複雑な状況におけるレーン検出の課題に対処する。
疎なアノテーションと細いレーン構造のため、標準的なCNNが長距離の空間的関係や微細なレーン特徴を捉えるのを制限する点を克服する。
顕著な計算コストを増加させることなく、特徴マップ間で空間的コンテキストを効率的に集約する、並列的で効率的なメカニズムを開発する。
アップサンプリングにおける特徴回復を、粗い特徴と細かい特徴を組み合わせることで向上させ、ピクセル単位のレーン予測の正確性を高める。
高い精度と効率性を備えた、今後のレーン検出研究のための強力でモジュール化されたベースラインを確立する。

提案手法

特徴マップをスライスし、複数のイテレーションにわたり縦方向および横方向にシフトすることで、グローバルな特徴集約を可能にする再帰的特徴シフト集約器であるRESAを提案する。
異なるストライドでのシフトされた特徴マップ間で要素ごとの加算（またはマックスプーリング）を適用して特徴集約を実行し、長距離情報の保持と伝搬中の損失低減を実現する。
標準的なCNNバックボーンの後ろにRESAをプラグインモジュールとして統合し、アーキテクチャの大幅な見直しを伴わずに特徴表現を豊かにする。
二重の並列ブランチを持つ二重アップサンプリングデコーダ（BUSD）を設計：一方のブランチは双線形アップサンプリングを用い、粗い特徴を処理し、もう一方のブランチは逆畳み込みとノンボトルネックブロックを用い、細かいディテールを処理する。
両ブランチの出力を統合して、高解像度で正確なレーン予測を再構築し、継続性と滑らかさを向上させる。
疎なレーンアノテーションに起因するクラス不均衡を補うために、標準的なピクセル単位のバイナリクロスエントロピー損失にフォーカル損失を適用して、ネットワーク全体を訓練する。

実験結果

リサーチクエスチョン

RQ1行および列方向に再帰的な特徴シフトを適用することで、隠蔽や曖昧な状況下でのレーン検出のための特徴表現が向上するか？
RQ2RESAにおけるイテレーション数とストライド選択が、性能および計算効率に与える影響は？
RQ3並列的特徴集約メカニズムは、SCNNのような逐次的メッセージ伝達手法に比べ、精度と速度の両面で優れているか？
RQ4アップサンプリング段階で粗い特徴と細かい特徴を組み合わせることで、ピクセル単位のレーン予測精度がどの程度向上するか？
RQ5提案手法は、実際の走行状況下で多様なベンチマーク（CULaneおよびTusimple）に一般化可能か？

主な発見

RESAは、ResNet-34バックボーンを用いてCULaneベンチマークで75.3のF1スコアを達成し、新たな最先端の結果を樹立した。
Tusimpleベンチマークでは、多様な実際の走行条件下で、先行手法を上回る96.8%の精度を達成した。
RESAのイテレーション数を1から4に増加させることで、F1スコアは73.2から74.5に向上したが、4回を超えると収束効果が顕著に低下した。
RESAはSCNN（カーネル幅11の場合、4.4ms 対 44.6ms）と比較して約10倍高速であり、優れた計算効率を示した。
特徴集約において要素ごとの加算をマックスプーリングに置き換えても、F1スコアは74.4（加算）対74.5（マックスプーリング）とほぼ同等の性能を示し、集約戦略に強いロバストネスを示した。
二重アップサンプリングデコーダは、グローバルな構造と局所的ディテールの両方を保持することで、予測品質を顕著に向上させたことが、定性的および定量的結果で確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。