[論文レビュー] Zero-Shot Automatic Annotation and Instance Segmentation using LLM-Generated Datasets: Eliminating Field Imaging and Manual Annotation for Deep Learning Model Development
本論文は、SAMとYOLO11を用いたゼロショットのLLM生成合成データワークフローを提案し、fieldデータ収集や手動アノテーションなしでリンゴのインスタンスセグメンテーションを訓練・検証し、実在の果樹園画像でDiceとIoUスコアが高い成果を達成します。
Currently, deep learning-based instance segmentation for various applications (e.g., Agriculture) is predominantly performed using a labor-intensive process involving extensive field data collection using sophisticated sensors, followed by careful manual annotation of images, presenting significant logistical and financial challenges to researchers and organizations. The process also slows down the model development and training process. In this study, we presented a novel method for deep learning-based instance segmentation of apples in commercial orchards that eliminates the need for labor-intensive field data collection and manual annotation. Utilizing a Large Language Model (LLM), we synthetically generated orchard images and automatically annotated them using the Segment Anything Model (SAM) integrated with a YOLO11 base model. This method significantly reduces reliance on physical sensors and manual data processing, presenting a major advancement in "Agricultural AI". The synthetic, auto-annotated dataset was used to train the YOLO11 model for Apple instance segmentation, which was then validated on real orchard images. The results showed that the automatically generated annotations achieved a Dice Coefficient of 0.9513 and an IoU of 0.9303, validating the accuracy and overlap of the mask annotations. All YOLO11 configurations, trained solely on these synthetic datasets with automated annotations, accurately recognized and delineated apples, highlighting the method's efficacy. Specifically, the YOLO11m-seg configuration achieved a mask precision of 0.902 and a mask mAP@50 of 0.833 on test images collected from a commercial orchard. Additionally, the YOLO11l-seg configuration outperformed other models in validation on 40 LLM-generated images, achieving the highest mask precision and mAP@50 metrics. Keywords: YOLO, SAM, SAMv2, YOLO11, YOLOv11, Segment Anything, YOLO-SAM
研究の動機と目的
- 農業用インスタンスセグメンテーションのための現場データ収集と手動アノテーションへの依存を低減する。
- LLM生成の果樹園画像を用いたゼロショット検出と自動マスク生成を実証する。
- YOLO11のインスタンスセグメンテーションモデルを完全に合成・自動アノテーションデータ上で訓練し、実際の果樹園画像で検証する。
- 商用果樹園でDice、IoU、精度、mAP@50などの指標を用いてモデルの精度と効率を評価する。
提案手法
- テキストプロンプトからリアルな果樹園画像を生成する(DALL-Eを使用、LLM生成データ)。
- COCOで訓練されたYOLO11ベースモデルを用いてゼロショットのリンゴ検出を行い、合成画像に境界ボックスを作成する。
- YOLOで検出された境界ボックス内でSAMv2を用いて自動的にセグメンテーションマスクを生成する。
- YOLO11インスタンスセグメンテーションモデル(n、s、m、l、x構成)を、完全に合成・自動アノテーションデータ上で訓練する。
- ロボットプラットフォーム上でMicrosoft Azure Kinect DKで撮影した実際の果樹園画像で性能を検証する。自動マスクと手動マスクを標準のセグメンテーション指標で比較する。

実験結果
リサーチクエスチョン
- RQ1LLM生成の合成果樹園画像は、現場データ収集なしでゼロショット検出とリンゴの正確なインスタンスセグメンテーションを可能にするか?
- RQ2自動アノテーションされた合成データで訓練したYOLO11ベースのインスタンスセグメンテーションモデルは、実際の果樹園画像でどの程度の性能を発揮するか?
- RQ3SAMv2アノテーションで訓練した場合、YOLO11の構成ごとにDice、IoU、mAP@50、推論速度といった精度と効率のトレードオフはどうなるか?
主な発見
- SAMv2を用いたゼロショットYOLO11は、LLM生成画像から自動的にリンゴマスクを生成でき、Dice係数0.9513、IoU0.9303。
- YOLO11m-segは実際の果樹園のテスト画像でマスク精度0.902、マスクmAP@500.833を達成。
- YOLO11l-segは40枚のLLM生成画像で最も高いマスク精度とmAP@50を達成。
- YOLO11n-segはテストされた構成の中で最も高速な推論速度3.8 msを提供。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。