QUICK REVIEW

[論文レビュー] PointSeg: Real-Time Semantic Segmentation Based on 3D LiDAR Point Cloud

Yuan Wang, Tianyue Shi|arXiv (Cornell University)|Jul 17, 2018

Remote Sensing and LiDAR Applications参考文献 25被引用数 105

ひとこと要約

PointSegは3D LiDAR点群を密な球面画像に変換し、SqueezeNetベースの軽量ネットワークを用い、Squeeze-and-Excitationに触発された再重み付けと拡張された多層特徴でリアルタイムの道路物体セマンティックセグメンテーションを単一GPUで実現します。

ABSTRACT

In this paper, we propose PointSeg, a real-time end-to-end semantic segmentation method for road-objects based on spherical images. We take the spherical image, which is transformed from the 3D LiDAR point clouds, as input of the convolutional neural networks (CNNs) to predict the point-wise semantic map. To make PointSeg applicable on a mobile system, we build the model based on the light-weight network, SqueezeNet, with several improvements. It maintains a good balance between memory cost and prediction performance. Our model is trained on spherical images and label masks projected from the KITTI 3D object detection dataset. Experiments show that PointSeg can achieve competitive accuracy with 90fps on a single GPU 1080ti. which makes it quite compatible for autonomous driving applications.

研究の動機と目的

LiDARデータを用いた道路物体のリアルタイム3Dセマンティックセグメンテーションを動機づける。
組み込みおよび搭載システムに適した、SqueezeNetに基づく軽量で高精度なネットワークを開発する。
球面投影を活用して、疎な3D点群をCNN処理用の密な2D表現へ変換する。
注意機構に類似したチャネル再重み付けとマルチスケールの文脈を組み込み、セグメンテーション精度を向上させる。

提案手法

方位角と天頂投影を用いて、LiDAR点群を密な64x512x5の球面画像へ変換する。
SqueezeNetとSqueezeSegに触発された軽量なFireベースのバックボーン上にPointSegを構築する。
SEブロックに類似したチャネル依存性をモデル化するスキューズ再重み付け層を導入する。
過剰な下抽出を避けながらマルチスケール文脈を捉える拡大（dilated）層を採用する。
ポイント毎のセグメンテーションマップを回復するために、スキップ接続を持つデコンボリューションベースのアップサンプリングパスを使用する。
バック投影されたセグメンテーション結果を精緻化するために、後処理としてRANSAC（Random Sample Consensus）を適用する。

実験結果

リサーチクエスチョン

RQ1SqueezeNetに基づく軽量CNNは、標準のGPUでリアルタイムの3D LiDARセマンティックセグメンテーションを達成できるか？
RQ23D LiDAR点群を球面画像に変換することは、競争力のある精度でピクセル単位のセマンティックラベルを有効に得られるか？
RQ3チャネルごとの再重み付けとマルチスケールの拡張文脈は、歩行者のような小さな物体を含む道路物体のセグメンテーション性能を改善するか？
RQ4典型的な搭載ハードウェア（例：GTX 1080Ti、Jetson TX2）でのPointSegの実行時間性能とメモリフットプリントはどの程度か？

主な発見

PointSegは単一GPUでフォワードパス計算をリアルタイムで約90 fps達成。
提案されたダウンサンプリング戦略（3段階のダウンサンプリング）は、車両を犠牲にすることなく歩行者と自転車の精度を向上させる。
拡張層（拡張畳み込み、レート6、9、12）は、メモリ使用量を抑えつつマルチスケール文脈を提供する。
Squeeze再重み付け層（SR1–SR3）は、特に小さな物体に対してチャネル単位の特徴の頑健性を向上させ、reweight-downが最良のバランスをもたらす。
RANSAC後処理はバック投影セグメンテーションの精度を向上させ、基本手法に比べて顕著な向上をもたらす。
SqueezeSegと比較して、PointSegは車両と自転車のIoUを改善し、歩行者の結果は競争力があり、1080Tiでフレームあたり約12 ms（CRFなし）、TX2ではRANSACを含むPointSegで約98 msを要する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。