QUICK REVIEW

[論文レビュー] Spatial As Deep: Spatial CNN for Traffic Scene Understanding

Xingang Pan, Zhan, Xiaohang|arXiv (Cornell University)|Dec 17, 2017

Autonomous Vehicle Technology and Safety被引用数 230

ひとこと要約

この論文は Spatial CNN (SCNN) を紹介する。層ごとに空間メッセージ伝搬を行い、特徴マップ内の行と列を横断して情報を伝播させることで、車線やポールのような長く形状のある構造をより適切に捉え、従来のCNNやRNN/CRFベースの方法より車線検出と意味的セグメンテーションを改善します。

ABSTRACT

Convolutional neural networks (CNNs) are usually built by stacking convolutional operations layer-by-layer. Although CNN has shown strong capability to extract semantics from raw pixels, its capacity to capture spatial relationships of pixels across rows and columns of an image is not fully explored. These relationships are important to learn semantic objects with strong shape priors but weak appearance coherences, such as traffic lanes, which are often occluded or not even painted on the road surface as shown in Fig. 1 (a). In this paper, we propose Spatial CNN (SCNN), which generalizes traditional deep layer-by-layer convolutions to slice-byslice convolutions within feature maps, thus enabling message passings between pixels across rows and columns in a layer. Such SCNN is particular suitable for long continuous shape structure or large objects, with strong spatial relationship but less appearance clues, such as traffic lanes, poles, and wall. We apply SCNN on a newly released very challenging traffic lane detection dataset and Cityscapse dataset. The results show that SCNN could learn the spatial relationship for structure output and significantly improves the performance. We show that SCNN outperforms the recurrent neural network (RNN) based ReNet and MRF+CNN (MRFNet) in the lane detection dataset by 8.7% and 4.6% respectively. Moreover, our SCNN won the 1st place on the TuSimple Benchmark Lane Detection Challenge, with an accuracy of 96.53%.

研究の動機と目的

長く連続した構造が形状 priors を強く持つが外観手掛かりが弱い交通シーンにおける空間関係のモデル化の改善を動機づける。
特徴マップ内をスライスごとにメッセージを伝搬させる空間指向のCNN拡張を提案する。
SCNN がCNN、ReNet、MRF/CRFベース、深層残差ネットワークと比較して難易度の高い交通データセットで車線検出と意味的セグメンテーションを改善することを示す。

提案手法

深層CNNを一般化して特徴マップ内でスライスごとに畳み込みを行い、方向性のある逐次的な空間メッセージ伝搬を可能にする。
スライスごとにカーネル重みを共有し、層全体に渡って残差メッセージを伝搬させるSCNNの前方計算を定義する（論文に式が示されている）。
バックボーンネットワークの上位の隠れ層の後に、下/上/右/左の4方向SCNNモジュールを実装する。
修正されたLargeFOV/ResNetバックボーンを用いてLane DetectionとCityscapes意味的セグメーションタスクをSGDでエンドツーエンドに訓練する。
高応答行からの立方スプライン車線再構成に続く確率マップによる車線存在推定を評価する。
SCNNをReNet、DenseCRF、MRFNet、ResNetベースラインと比較し、密なMRF/CRFより効率上の利点を示す。

実験結果

リサーチクエスチョン

RQ1Spatial CNN は行と列に沿った空間情報の効果的な伝搬を可能にし、遮蔽されたまたは外観が弱い車線 markings や構造物を回復できるのか。
RQ2SCNN は車線検出と都市シーンの意味的セグメンテーションにおいて RNNベース、MRF/CRFベース、およびより深いCNNベースラインを上回るのか。
RQ3交通シーンの構造化された物体において出力層よりもトップの隠れ層にSCNNを適用する方が有益なのか。
RQ4カーネル幅、方向配置、逐次 vs. 並列のメッセージ伝搬がSCNNの性能に与える影響は何か。

主な発見

SCNN は多方向伝搬により、IoU閾値を跨いだ車線検出のF1スコアをベースライン、ReNet、MRFNet より大幅に改善する。
より大きいSCNNカーネル幅（最大 w=9）でF1 が高くなり、IoU閾値0.3および0.5でベースラインを大きく上回る。
SCNN をトップの隠れ層に適用する方が出力層に適用するより良い結果を生む。
逐次的（並列でない）メッセージ伝搬は明確な精度向上をもたらし、複数ステップにわたる情報拡散が構造推定を改善することを示す。
SCNN搭載モデルは DenseCRF、ReNet、そして多くの場合 ResNet-50/101 のベースラインを車線検出指標で上回る。Cityscapes では LargeFOV または ResNet-101 バックボーンに追加した場合、いくつかのクラスと全体の mIoU が改善する。
SCNN は Dense CRF および LSTM ベースラインより計算効率の利点を示し、長く細い構造物や大きな物体に有益な拡散効果を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。