[논문 리뷰] Zero-Shot Automatic Annotation and Instance Segmentation using LLM-Generated Datasets: Eliminating Field Imaging and Manual Annotation for Deep Learning Model Development
이 논문은 필드 데이터 수집이나 수동 주석 없이 SAM과 YOLO11을 사용한 LLM-생성 합성 데이터 워크플로를 제안하고 애플 인스턴스 세분화를 수행 및 검증하며 실제 과수원 이미지에서 Dice 및 IoU 점수가 높게 달성한다.
Currently, deep learning-based instance segmentation for various applications (e.g., Agriculture) is predominantly performed using a labor-intensive process involving extensive field data collection using sophisticated sensors, followed by careful manual annotation of images, presenting significant logistical and financial challenges to researchers and organizations. The process also slows down the model development and training process. In this study, we presented a novel method for deep learning-based instance segmentation of apples in commercial orchards that eliminates the need for labor-intensive field data collection and manual annotation. Utilizing a Large Language Model (LLM), we synthetically generated orchard images and automatically annotated them using the Segment Anything Model (SAM) integrated with a YOLO11 base model. This method significantly reduces reliance on physical sensors and manual data processing, presenting a major advancement in "Agricultural AI". The synthetic, auto-annotated dataset was used to train the YOLO11 model for Apple instance segmentation, which was then validated on real orchard images. The results showed that the automatically generated annotations achieved a Dice Coefficient of 0.9513 and an IoU of 0.9303, validating the accuracy and overlap of the mask annotations. All YOLO11 configurations, trained solely on these synthetic datasets with automated annotations, accurately recognized and delineated apples, highlighting the method's efficacy. Specifically, the YOLO11m-seg configuration achieved a mask precision of 0.902 and a mask mAP@50 of 0.833 on test images collected from a commercial orchard. Additionally, the YOLO11l-seg configuration outperformed other models in validation on 40 LLM-generated images, achieving the highest mask precision and mAP@50 metrics. Keywords: YOLO, SAM, SAMv2, YOLO11, YOLOv11, Segment Anything, YOLO-SAM
연구 동기 및 목표
- 농업 인스턴스 세분화를 위한 현장 데이터 수집 및 수동 주석에 대한 의존도 축소.
- LLM생성 과수원 이미지를 사용하여 제로샷 탐지 및 자동 마스크 생성을 시연.
- 합성물에서만, 자동 주석 데이터로 YOLO11 인스턴스 세분화 모델을 학습하고 실제 과수원 영상으로 검증.
- 상업용 과수원에서 Dice, IoU, 정밀도, 및 mAP@50 같은 지표로 모델 정확도와 효율성 평가.
제안 방법
- LLM-생성 데이터에서 텍스트 프롬프트로 현실적인 과수원 이미지 생성(DALL-E 활용).
- COCO-학습된 YOLO11 기본 모델로 제로샷 애플 탐지 수행하여 합성 이미지에서 바운딩 박스 생성.
- YOLO가 탐지한 바운딩 박스 내에서 SAMv2를 사용해 자동으로 세분화 마스크 생성.
- 합성물에만, 자동 주석 데이터로 YOLO11 인스턴스 세분화 모델(n, s, m, l, x 구성) 학습.
- 실제 과수원 이미지를 Microsoft Azure Kinect DK로 로봇 플랫폼에서 촬영한 것으로 성능 검증; 자동 마스크와 수동 마스크를 표준 세분화 지표로 비교.

실험 결과
연구 질문
- RQ1LLM생성 합성 과수원 이미지가 현장 데이터 수집 없이 제로샷 탐지 및 정확한 애플리케이스 분할을 가능하게 하는가?
- RQ2자동으로 주석된 합성 데이터로 학습된 YOLO11 기반 인스턴스 세분화 모델이 실제 과수원 영상에서 얼마나 잘 작동하는가?
- RQ3SAMv2 주석으로 학습했을 때 YOLO11 구성 간 정확도와 효율성의 트레이드오프( Dice, IoU, mAP@50, 추론 속도 )는 어떠한가?
주요 결과
- 제로샷 YOLO11과 SAMv2가 LLM생성 이미지에서 자동 애플 마스크를 생성할 수 있으며 Dice 계수 0.9513 및 IoU 0.9303.
- YOLO11m-seg가 실제 과수원 테스트 이미지에서 마스크 정밀도 0.902 및 마스크 mAP@50 0.833를 달성.
- YOLO11l-seg 구성은 40장의 LLM생성 이미지에서 가장 높은 마스크 정밀도 및 mAP@50을 제공합니다.
- YOLO11n-seg은 테스트된 구성 중 추론 속도가 가장 빠른 3.8 ms를 제공합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.