Skip to main content
QUICK REVIEW

[論文レビュー] Real-time Joint Object Detection and Semantic Segmentation Network for Automated Driving

Ganesh Sistu, Isabelle Leang|arXiv (Cornell University)|Jan 12, 2019
Advanced Neural Network Applications参考文献 10被引用数 32
ひとこと要約

本論文は、共有の軽量なResNet10に類似したエンコーダーを用い、YOLOv2スタイルおよびFCN8スタイルのデコーダーを備えたリアルタイムで統合的なディーブラーニングアーキテクチャを提案する。この手法は、KITTI、Cityscapes、およびプライベートなフィッシュアイカメラデータセットにおいて、分離されたネットワークと同等の精度を維持しながら、低消費電力の組み込みシステムで30 fpsを達成する。

ABSTRACT

Convolutional Neural Networks (CNN) are successfully used for various visual perception tasks including bounding box object detection, semantic segmentation, optical flow, depth estimation and visual SLAM. Generally these tasks are independently explored and modeled. In this paper, we present a joint multi-task network design for learning object detection and semantic segmentation simultaneously. The main motivation is to achieve real-time performance on a low power embedded SOC by sharing of encoder for both the tasks. We construct an efficient architecture using a small ResNet10 like encoder which is shared for both decoders. Object detection uses YOLO v2 like decoder and semantic segmentation uses FCN8 like decoder. We evaluate the proposed network in two public datasets (KITTI, Cityscapes) and in our private fisheye camera dataset, and demonstrate that joint network provides the same accuracy as that of separate networks. We further optimize the network to achieve 30 fps for 1280x384 resolution image.

研究の動機と目的

  • 自動運転システムにおけるリアルタイムのセマンティックセグメンテーションとオブジェクト検出の計算ボトルネックを解決すること。
  • 共有エンコーダーを用いた検出とセグメンテーションのタスクを同時に学習させることで、効率性とスケーラビリティを向上させること。
  • 精度を損なわずに低消費電力の組み込みSOC上でリアルタイム推論(30 fps)を達成すること。
  • 重み付き損失バランスを用いたマルチタスク学習が、両タスクにおいて競争力のある性能を実現できることを示すこと。
  • 公開ベンチマークおよびプライベートのフィッシュアイカメラデータセットを含む多様なデータセット上で、アーキテクチャの有効性を検証すること。

提案手法

  • 検出とセグメンテーションの両タスクに共通して使用する、小型のResNet10に類似したアーキテクチャに基づく共有エンコーダーを採用する。
  • 検出ヘッドは、境界ボックスのアンカーベース予測を採用したYOLOv2にインspiredされたデコーダーを用いる。
  • セグメンテーションヘッドは、スイープ接続を備えたFCN8スタイルのデコーダーを用い、ピクセル単位の密度予測を実現する。
  • マルチタスク学習フレームワークにより、セグメンテーションと検出の損失を重み付き和(w_seg = 1, 10, 100)で統合し、損失スケールのバランスを取る。
  • モデル最適化には、チャネル数の削減、最小限のスイープ接続、および水平線のみを対象としたセグメンテーションを実施し、メモリと計算量を削減する。
  • ネットワークはADAM最適化アルゴリズムで学習され、セグメンテーションにはカテゴリカルクロスエントロピー損失、検出には平均二乗誤差損失がそれぞれ使用される。

実験結果

リサーチクエスチョン

  • RQ1共有エンコーダー構造は、分離されたネットワークと同等の精度を検出とセグメンテーションの両タスクで達成できるか?
  • RQ2重み付き損失バランスを用いたマルチタスク学習は、両タスクの性能にどのように影響を与えるか?
  • RQ3統合ネットワークは、低消費電力の組み込みSoC上で30 fpsのリアルタイム推論を達成できるか、かつ高い精度を維持できるか?
  • RQ4セグメンテーションデコーダーを画像の下部半分に制限することで、精度の著しい低下を伴わずに効率性が向上するか?
  • RQ5リアルタイムの実世界データおよびフィッシュアイカメラデータを含む多様なデータセットにおいて、統合ネットワークの汎用性はどの程度か?

主な発見

  • マルチタスクネットワークは、KITTIのセグメンテーションでmIoU 0.8172、検出でmAP 0.6112を達成し、単一タスクベースラインと同等またはわずかに劣るが、顕著な効率性の向上を示した。
  • Cityscapesでは、MTL 100設定がセグメンテーションでmIoU 0.5555、検出でmAP 0.2355を達成し、重み付き損失によりセグメンテーション性能が向上した。
  • プライベートなフィッシュアイデータセットでは、MTL 100設定がセグメンテーションでmIoU 0.7527、検出でmAP 0.459を達成し、非標準のカメラ入力に対しても高いロバストネスを示した。
  • 最適化されたネットワークは、低消費電力の組み込みシステムで1280x384解像度で30 fpsの推論を達成し、自動運転におけるリアルタイム要件を満たした。
  • アブレーションスタディにより、重み付き損失バランス(w_seg = 100)が、特に損失スケールが大きいデータセットにおいてセグメンテーション性能を顕著に向上させたことが確認された。
  • 統合アーキテクチャにより、エンコーダーの共有によって計算およびメモリのオーバーヘッドが削減され、リソース制限のある自動車プラットフォームへのデプロイが可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。