QUICK REVIEW

[論文レビュー] Deep Learning from Shallow Dives: Sonar Image Generation and Training for Underwater Object Detection

Sejin Lee, Byungjae Park|arXiv (Cornell University)|Oct 18, 2018

Underwater Acoustics Research参考文献 11被引用数 38

ひとこと要約

本論文では、シミュレータから実際の水中レーダー画像に類似したリアルな水中レーダー画像を合成するスタイル変換ベースの手法を提案する。この手法により、水中物体検出のための効果的な学習が可能となり、実際の水中データの不足を顕著に軽減する。実際の海やプールのレーダー画像の視覚的特徴をシミュレートデータに転送することで、実際の海データで学習したモデルと同等の検出性能を達成し、水中レーダー応用分野におけるデータ不足の問題を緩和する。

ABSTRACT

Among underwater perceptual sensors, imaging sonar has been highlighted for its perceptual robustness underwater. The major challenge of imaging sonar, however, arises from the difficulty in defining visual features despite limited resolution and high noise levels. Recent developments in deep learning provide a powerful solution for computer-vision researches using optical images. Unfortunately, deep learning-based approaches are not well established for imaging sonars, mainly due to the scant data in the training phase. Unlike the abundant publically available terrestrial images, obtaining underwater images is often costly, and securing enough underwater images for training is not straightforward. To tackle this issue, this paper presents a solution to this field's lack of data by introducing a novel end-to-end image-synthesizing method in the training image preparation phase. The proposed method present image synthesizing scheme to the images captured by an underwater simulator. Our synthetic images are based on the sonar imaging models and noisy characteristics to represent the real data obtained from the sea. We validate the proposed scheme by training using a simulator and by testing the simulated images with real underwater sonar images obtained from a water tank and the sea.

研究の動機と目的

深層学習における限られた実際の水中レーダー学習データという重要な課題に対処する。
低解像度でノイジーなレーダー画像における視覚的特徴を定義する難しさを克服する。
実際の世界のレーダー画像の特徴を再現するシミュレーションベースの学習パイプラインを開発する。
水槽および海上試験の実際のテストデータを用いて、合成データアプローチの有効性を検証する。
異なるレーダーセンサーや環境条件にわたる一般化性能を示す。

提案手法

水中の標的のリアルな深度マップを備えた3次元シミュレータを用いて、合成レーダー画像を生成する。
実際のレーダー画像から得た視覚的特徴（ノイズパターン、明るさ、コントラストなど）を、シミュレートされた画像にスタイル変換により転送する。
水槽試験および海上試験から得た実際のレーダー画像をスタイルリファレンス画像として用い、実世界の外観に一致させる。
スタイル変換を施した合成データ上で、畳み込みニューラルネットワーク（CNN）をエンドツーエンドで学習させ、物体検出を実行する。
比較のためのベースラインとして、2017年（SEA2017）の実データを用いてモデルを微調整する。
2018年（SEA2018）の実際のレーダー画像および多様なレーダーセンサを用いて、学習済みモデルの一般化性能を評価する。

実験結果

リサーチクエスチョン

RQ1シミュレータから生成された合成レーダー画像にスタイル変換を適用することで、水中物体検出のための深層学習モデルを効果的に学習させることができるか？
RQ2スタイル変換を施した合成データで学習したモデルの性能は、実際の海のレーダー画像で学習したモデルと比べてどうか？
RQ3提案手法は、異なるレーダーセンサーや環境条件（範囲や堆積物の種別など）にわたって一般化可能か？
RQ4合成データで学習したモデルは、信号対雑音比が低く、ターゲットが小さなような困難な条件下でも頑健であるか？
RQ5高価な実世界データ収集を減らしつつ、高い検出精度を維持できるか？

主な発見

スタイル変換を施した合成画像で学習したモデルは、実際の海データで学習したベースラインモデルと同等の物体検出精度を達成し、精度-再現率曲線もSEA2017ベースラインとほぼ一致した。
提案手法により、合成データと実データの間の性能ギャップが著しく縮小された。スタイル変換が実世界の視覚的特徴を効果的に捉えていることを示している。
モデルは水槽および海上環境の実際のレーダー画像において、潜水士を正常に検出できた。特に信号対雑音比が低く、ターゲットが数ピクセル程度の状況でも同様に有効であった。
ターゲットがセンサーから5メートル以内に存在する場合、特にターゲットが数ピクセル程度でも検出性能が頑健に保たれた。
岩や海底のような非ターゲットオブジェクトを誤検出することはなく、背景のゴミや雑音に対して強い一般化性能と頑健性を示した。
異なるレーダーセンサ（TeledyneおよびSonarTech）および多様な環境条件（範囲や堆積物の種別など）にわたって、本手法は良好に一般化した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。