QUICK REVIEW

[論文レビュー] NEAR REAL-TIME MAP BUILDING WITH MULTI-CLASS IMAGE SET LABELLING AND CLASSIFICATION OF ROAD CONDITIONS USING CONVOLUTIONAL NEURAL NETWORKS

Sheela Ramanna, Cenker Sengoz|arXiv (Cornell University)|Jan 1, 2020

Infrastructure Maintenance and Monitoring参考文献 32被引用数 2

ひとこと要約

本稿では、北米の交通監視カメラから得た画像を用いて畳み込みニューラルネットワーク（CNN）を用いて道路状況を分類する、ニアリアルタイムな地図作成システムを提示する。6つのディープラーニングモデル（VGG-16、ResNet50、Xception、InceptionResNetV2、EfficientNet-B0、EfficientNet-B4）を評価し、EfficientNet-B4が90.6%の検証精度を達成した。一方、EfficientNet-B0は半分の推論時間で90.3%の高い精度を示し、動的でスケーラブルなリアルタイム地図作成に適した選択肢となった。

ABSTRACT

Weather is an important factor affecting transportation and road safety. In this paper, we leverage state-of-the-art convolutional neural networks in labelling images taken by street and highway cameras located across across North America. Road camera snapshots were used in experiments with multiple deep learning frameworks to classify images by road condition. The training data for these experiments used images labelled as dry, wet, snow/ice, poor, and offline. The experiments tested different configurations of six convolutional neural networks (VGG-16, ResNet50, Xception, InceptionResNetV2, EfficientNet-B0 and EfficientNet-B4) to assess their suitability to this problem. The precision, accuracy, and recall were measured for each framework configuration. In addition, the training sets were varied both in overall size and by size of individual classes. The final training set included 47,000 images labelled using the five aforementioned classes. The EfficientNet-B4 framework was found to be most suitable to this problem, achieving validation accuracy of 90.6%, although EfficientNet-B0 achieved an accuracy of 90.3% with half the execution time. It was observed that VGG-16 with transfer learning proved to be very useful for data acquisition and pseudo-labelling with limited hardware resources, throughout this project. The EfficientNet-B4 framework was then placed into a real-time production environment, where images could be classified in real-time on an ongoing basis. The classified images were then used to construct a map showing real-time road conditions at various camera locations across North America. The choice of these frameworks and our analysis take into account unique requirements of real-time map building functions. A detailed analysis of the process of semi-automated dataset labelling using these frameworks is also presented in this paper.

研究の動機と目的

北米全域の道路状況を、公開されている交通監視カメラの画像を用いて、スケーラブルでニアリアルタイムなシステムとしてマッピングすること。
マルチクラスの道路状況分類（乾燥、湿潤、雪・凍結、不良、オフライン）に適した最先端のCNNアーキテクチャを複数評価すること。
リアルタイム配備に適した精度、推論速度、ハードウェア効率に基づいたモデル選定を最適化すること。
限られた計算リソース下でも、トランスファーラーニングと疑似ラベル付けを用いて、半自動的なデータセットラベル付けを可能にすること。

提案手法

47,000枚の道路カメラスナップショットからなるデータセットを用いて、6つのディープCNNアーキテクチャ（VGG-16、ResNet50、Xception、InceptionResNetV2、EfficientNet-B0、EfficientNet-B4）を訓練した。
データオーグメンテーションとトランスファーラーニングを適用し、特にリソース制約下での初期データ取得と疑似ラベル付けにVGG-16を活用した。
マルチクラス分類のため、リLU活性化関数を用いた修正版Adam最適化手法（rectified Adam）を採用し、基本学習率0.0001、カテゴリカル交差エントロピー損失関数を用いた。
5分割交差検証を実施し、90/10のトレーニング・バリデーション分割を採用。トレーニングに42,606枚、バリデーションに4,736枚の画像を用いた。
最高性能を示したモデル（EfficientNet-B4）をリアルタイムパイプラインにデプロイし、受信画像を即座に分類し、地理的マップ可視化に結果をストリーム送信した。
分類結果をCSVおよびPostgreSQLに保存し、リアルタイムマッピングシステムへの統合を可能にした。

実験結果

リサーチクエスチョン

RQ1どのディープラーニングアーキテクチャが、交通監視カメラ画像からの道路状況分類において最高の精度を達成するか？
RQ2モデルの推論速度とパラメータ数は、大規模な地図作成システムにおけるリアルタイム配備にどのように影響を与えるか？
RQ3トランスファーラーニングと疑似ラベル付けは、道路状況分類における手作業ラベル付けコストをどの程度削減できるか？
RQ4データセットのサイズとクラス不均衡は、モデルの一般化性能やパフォーマンスにどのような影響を及えるか？
RQ5公開済みの交通監視カメラ配信を統合することで、国境を越えた統一的なリアルタイム道路状況監視システムを構築可能か？

主な発見

EfficientNet-B4は6エポック後に90.6%の最高バリデーション精度を達成し、他のモデルに比べて分類性能が優れていた。
EfficientNet-B0は600msの推論時間で90.3%の精度を達成し、速度と精度のバランスに優れた選択肢であった。
VGG-16を用いたトランスファーラーニングは、リソース制限下でも初期データ取得と疑似ラベル付けに非常に効果的であった。
より大規模かつ多様なトレーニングデータセットを用いることでモデル性能が向上したため、データスケーラビリティの利点が示された。
Xception、InceptionResNetV2、EfficientNetフレームワークは、十分なハードウェアリソースが確保できる場合、特に優れた性能を示した。
最終的なシステムは782枚の分類済み画像を用いて、北米の道路状況のリアルタイムマップを正常に生成し、エンドツーエンドのパイプライン実現可能性を実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。