[論文レビュー] Automatic Pavement Crack Detection Based on Structured Prediction with the Convolutional Neural Network
CNNベースの構造化予測法がピクセルレベルで舗装亀裂を検出し、データの不均衡を扱い、CFDとAigleRNデータセットでいくつかのベースラインを上回り、クロスデータベース一般化を探索した。
Automated pavement crack detection is a challenging task that has been researched for decades due to the complicated pavement conditions in real world. In this paper, a supervised method based on deep learning is proposed, which has the capability of dealing with different pavement conditions. Specifically, a convolutional neural network (CNN) is used to learn the structure of the cracks from raw images, without any preprocessing. Small patches are extracted from crack images as inputs to generate a large training database, a CNN is trained and crack detection is modeled as a multi-label classification problem. Typically, crack pixels are much fewer than non-crack pixels. To deal with the problem with severely imbalanced data, a strategy with modifying the ratio of positive to negative samples is proposed. The method is tested on two public databases and compared with five existing methods. Experimental results show that it outperforms the other methods.
研究の動機と目的
- 多様な pavement conditions で自動化かつ頑健な亀裂検出を動機づける。
- 前処理なしで生デ画像から直接亀裂構造を学習する。
- 画像パッチごとに亀裂検出を多ラベルの構造化予測問題としてモデル化する。
- 極端なクラス不均衡に対処して、精度を犠牲にせず亀裂ピクセルの再現率を改善する。
提案手法
- 各ピクセルを中心としたパッチ(27x27)をCNN入力として用い、中心構造を5x5(s=5)で予測する。
- シグモイド活性化とクロスエントロピーロスを用いた多ラベル出力をモデル化し、正則化としてL2正則化とドロップアウトを併用する。
- 入力を3チャネル(CFD)と1チャネル(AigleRN)で別々のCNNを学習させ、パッチサンプリングと平均-分散正規化によるデータ拡張を適用する。
- 極端なクラス不均衡を緩和するために訓練時の陽性対陰性サンプル比を調整する(CFDで典型的には1:3)。
- ピクセルごとの出力を重なり合う予測を合計し正規化して画像全体の確率マップに集約する。
実験結果
リサーチクエスチョン
- RQ1CNNによる構造化予測は亀裂検出のピクセル単位分類子を超えられるか?
- RQ2出力構造のサイズ(s)が検出性能にどのように影響するか?
- RQ3不均衡な訓練データは亀裂検出にどのような影響を与え、比率調整で結果は改善されるか?
- RQ4学習モデルは異なる舗装データセット間で一般化可能か(クロスデータベース評価)か?
主な発見
| 手法 | Pr | Re | F1 |
|---|---|---|---|
| Canny | 0.4377 | 0.7307 | 0.4570 |
| Local thresholding | 0.7727 | 0.8274 | 0.7418 |
| CrackForest | 0.7466 | 0.9514 | 0.8318 |
| The proposed method | 0.9119 | 0.9481 | 0.9244 |
| Canny (AigleRN) | 0.1989 | 0.6753 | 0.2881 |
| Local thresholding (AigleRN) | 0.5329 | 0.9345 | 0.6670 |
| FFA | 0.7688 | 0.6812 | 0.6817 |
| MPS | 0.8263 | 0.8410 | 0.8195 |
| The proposed method (AigleRN) | 0.9178 | 0.8812 | 0.8954 |
- 提案されたCNNと構造化予測は CFD 上で F1 が 0.9244(Canny、局所二値化、CrackForest より高い)を達成し、F1を向上させる。
- CFD では Pr=0.9119、Re=0.9481 を得る。
- AigleRN では Pr=0.9178、Re=0.8812、F1=0.8954 を達成し、Canny、局所二値化、FFA、MPS を上回る。
- 構造化予測(s=5)はピクセルレベル分類(s=1)よりノイズ耐性が高く、連続した亀裂マップを生成する点で優れている。
- 訓練時の陽性対陰性サンプリング比を調整すると(CFD で R は2〜5、AigleRN で2–3)、精度と再現率のF1バランスが改善される。
- クロスデータベースの検証ではトレーニングデータの性質によりトレードオフが生じる:AigleRN で訓練したモデルは細い亀裂と高い精度を出す一方再現率が低く、CFD で訓練したモデルは太い亀裂と高再現率を出す;ハイブリッド訓練は一般化を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。