QUICK REVIEW

[論文レビュー] Synthetic training data generation for deep learning based quality inspection

Pierre Gutierrez, Maria Luschkova|arXiv (Cornell University)|Apr 7, 2021

Industrial Vision Systems and Defect Detection被引用数 26

ひとこと要約

本稿では、3次元モデリング、テクスチャースキャン、ドメインランダマイゼーションを用いて、欠陥ありおよび健全な金属部品の高品質で写真実地的な合成画像を生成する汎用的なシミュレーションパイプラインを提案する。実験の結果、合成データのみで訓練されたディーブラーニングモデルが、実際のテストデータでmAP 0.54を達成した。一方、合成データと実データを組み合わせた訓練では性能がmAP 0.75まで向上し、実データのみで訓練した場合よりも優れた性能を示した。

ABSTRACT

Deep learning is now the gold standard in computer vision-based quality inspection systems. In order to detect defects, supervised learning is often utilized, but necessitates a large amount of annotated images, which can be costly: collecting, cleaning, and annotating the data is tedious and limits the speed at which a system can be deployed as everything the system must detect needs to be observed first. This can impede the inspection of rare defects, since very few samples can be collected by the manufacturer. In this work, we focus on simulations to solve this issue. We first present a generic simulation pipeline to render images of defective or healthy (non defective) parts. As metallic parts can be highly textured with small defects like holes, we design a texture scanning and generation method. We assess the quality of the generated images by training deep learning networks and by testing them on real data from a manufacturer. We demonstrate that we can achieve encouraging results on real defect detection using purely simulated data. Additionally, we are able to improve global performances by concatenating simulated and real data, showing that simulations can complement real images to boost performances. Lastly, using domain adaptation techniques helps improving slightly our final results.

研究の動機と目的

特に希少な欠陥に対して、実際のアノテート済み欠陥データの不足に取り組む。
ディープラーニングのための実データ収集およびアノテーションにかかる高コストと人的負荷を軽減する。
多様で写真実地的な欠陥あり・健全な部品の合成画像を生成できるスケーラブルで汎用的なシミュレーションパイプラインを開発する。
合成データのみ、または合成データと実データを組み合わせたデータで、工業的水準の性能を達成できるかどうかを評価する。
品質検査におけるシミュレーションから実世界へのドメインギャップを埋めるために、ドメイン適応技術の有効性を評価する。

提案手法

実画像から撮影した物理的部品（例：フォルクスワーゲンのギアフォーク）の3次元モデルを、写真測量法を用いて再構築する。
部品表面の高分解能で詳細なテクスチャマップを取得するため、光度ステレオ法を適用する。
形状・サイズ・位置の変動を制御できるパラメトリック欠陊モデルを実装し、現実的な欠陥（例：穴、亀裂）を生成する。
ランダム化された照明、カメラアングル、背景条件を用いて3次元レンダリングエンジンで合成画像をレンダリングし、ドメインランダマイゼーションを強化する。
ドメイン適応技術（DANN、Wasserstein DANN、CORAL、ASS）を適用し、合成データと実データの分布間の特徴を一致させる。
mAPおよび精度／再現率を評価指標として用い、YOLOベースのオブジェクト検出モデルを、合成データと実データのさまざまな組み合わせで訓練する。

実験結果

リサーチクエスチョン

RQ1合成データのみで訓練されたディーブラーニングモデルは、実世界の欠陥検出で妥当な性能を達成できるか？
RQ2合成欠陥データセットに実際の健全な画像を追加することで、モデルの一般化性能が向上するか、それともドメインシフトや過学習を引き起こすか？
RQ3合成データと実データを組み合わせた訓練が、実データのみで訓練した場合よりも、産業用欠陥検査で優れた性能をもたらすか？
RQ4ドメイン適応技術は、実データでテストされた合成データで訓練されたモデルの一般化性能をどの程度向上させるか？
RQ5提案されたシミュレーションパイプラインは、多様な部品や欠陥タイプに応用可能なスケーラブルで再利用可能なフレームワークとして機能できるか？

主な発見

合成データのみで訓練されたモデルが、実際のテストセットで平均平均精度（mAP）0.54を達成した。これは、合成データのみで意味のある欠陥検出が可能であることを示している。
合成データと実データを組み合わせた訓練により、mAPが0.75まで向上し、実データのみで訓練したモデルが達成した0.72 mAPを上回った。
合成欠陥データセットに実際の健全な画像を追加したところ、深刻な過学習が発生し、mAPは0.38に低下し、再現率は0.10まで低下した。これは、分布の不一致に起因するドメインの混乱を示している。
検証されたドメイン適応技術の中で、唯一の有効な改善を示したのは、教師ありドメイン適応（ASS）手法であり、実データ＋合成データの設定でmAPが0.01ポイント向上した。
ドメイン適応技術による利益が限定的であったことから、シミュレーションパイプラインにおける写真実地性の向上とドメインランダマイゼーションの強化が、複雑な適応手法よりも効果的である可能性がある。
結果から、シミュレーションベースのデータ生成は、とくに希少な欠陥タイプに対して、実データと併用可能な代替的で有効なアプローチであることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。