[论文解读] Deep Learning from Shallow Dives: Sonar Image Generation and Training for Underwater Object Detection
本文提出一种基于风格迁移的方法,从模拟器生成逼真的水下声呐图像,从而实现水下目标检测的有效训练。通过将真实海洋和水池声呐图像的视觉特征迁移至模拟数据,该方法实现了与在真实海洋数据上训练的模型相当的检测性能,显著缓解了水下声呐应用中的数据稀缺问题。
Among underwater perceptual sensors, imaging sonar has been highlighted for its perceptual robustness underwater. The major challenge of imaging sonar, however, arises from the difficulty in defining visual features despite limited resolution and high noise levels. Recent developments in deep learning provide a powerful solution for computer-vision researches using optical images. Unfortunately, deep learning-based approaches are not well established for imaging sonars, mainly due to the scant data in the training phase. Unlike the abundant publically available terrestrial images, obtaining underwater images is often costly, and securing enough underwater images for training is not straightforward. To tackle this issue, this paper presents a solution to this field's lack of data by introducing a novel end-to-end image-synthesizing method in the training image preparation phase. The proposed method present image synthesizing scheme to the images captured by an underwater simulator. Our synthetic images are based on the sonar imaging models and noisy characteristics to represent the real data obtained from the sea. We validate the proposed scheme by training using a simulator and by testing the simulated images with real underwater sonar images obtained from a water tank and the sea.
研究动机与目标
- 解决深度学习在水下声呐训练数据有限的关键挑战。
- 克服在低分辨率、噪声较多的声呐图像中定义视觉特征的困难。
- 开发一种基于模拟的训练流程,以模拟真实世界声呐图像的特征。
- 使用来自水箱和开放海域试验的真实测试数据验证合成数据方法。
- 证明该方法在不同声呐传感器和环境条件下的泛化能力。
提出的方法
- 使用带有真实水下目标深度图的3D模拟器生成合成声呐图像。
- 应用风格迁移,将真实声呐图像的视觉特征(如噪声模式、亮度、对比度)迁移到模拟图像上。
- 使用来自水箱试验和海上试验的真实声呐图像作为风格参考图像,以匹配真实世界外观。
- 在经过风格迁移的合成数据上端到端训练卷积神经网络(CNN)用于目标检测。
- 使用2017年的真实数据(SEA2017)进行微调,作为比较基线。
- 在2018年的真实声呐图像(SEA2018)以及多种声呐传感器上测试训练好的模型,以评估泛化性能。
实验结果
研究问题
- RQ1通过模拟器生成的合成声呐图像,经风格迁移增强后,能否有效训练深度学习模型用于水下目标检测?
- RQ2在风格迁移合成数据上训练的模型性能与在真实海洋声呐数据上训练的模型相比如何?
- RQ3所提出的方法能否在不同声呐传感器和环境条件下(包括不同探测距离和沉积物类型)实现泛化?
- RQ4在低信噪比和小目标尺寸等挑战性条件下,基于合成数据训练的模型是否仍保持鲁棒性?
- RQ5该方法能否在保持高检测精度的同时,减少对昂贵真实世界数据采集的依赖?
主要发现
- 在风格迁移合成图像上训练的模型实现了与基于真实海洋数据训练的基线模型相当的目标检测精度,其精确率-召回率曲线几乎与SEA2017基线一致。
- 所提出方法显著缩小了合成数据与真实数据训练之间的性能差距,表明风格迁移能有效捕捉真实世界的视觉特征。
- 该模型在来自水箱和开放海域环境的真实声呐图像中成功检测到潜水员,包括信噪比较低和目标尺寸较小的情况。
- 即使目标小至几个像素,检测性能依然稳健,尤其当目标距离传感器在5米以内时表现更优。
- 模型未对非目标物体(如岩石或海床)产生误检,表明其对背景杂波具有强泛化能力和鲁棒性。
- 该方法在不同声呐传感器(Teledyne和SonarTech)以及多种环境条件(包括不同探测距离和沉积物类型)下均表现出良好泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。