[논문 리뷰] VIGIL: Tackling Hallucination Detection in Image Recontextualization
VIGIL은 다중모드 이미지 재맥락화에서 환각을 위한 미세한 분류체계와 다단계 탐지 파이프라인을 도입하고, manually annotated 벤치마크 1,269개 샘플로 구성됩니다. 이는 카테고리별 F1 지표에서 베이스라인을 능가하고 설명 가능한 출력물을 제공합니다.
We introduce VIGIL (Visual Inconsistency & Generative In-context Lucidity), the first benchmark dataset and framework providing a fine-grained categorization of hallucinations in the multimodal image recontextualization task for large multimodal models (LMMs). While existing research often treats hallucinations as a uniform issue, our work addresses a significant gap in multimodal evaluation by decomposing these errors into five categories: pasted object hallucinations, background hallucinations, object omission, positional & logical inconsistencies, and physical law violations. To address these complexities, we propose a multi-stage detection pipeline. Our architecture processes recontextualized images through a series of specialized steps targeting object-level fidelity, background consistency, and omission detection, leveraging a coordinated ensemble of open-source models, whose effectiveness is demonstrated through extensive experimental evaluations. Our approach enables a deeper understanding of where the models fail with an explanation; thus, we fill a gap in the field, as no prior methods offer such categorization and decomposition for this task. To promote transparency and further exploration, we openly release VIGIL, along with the detection pipeline and benchmark code, through our GitHub repository: https://github.com/mlubneuskaya/vigil and Data repository: https://huggingface.co/datasets/joannaww/VIGIL.
연구 동기 및 목표
- 다중모달 이미지 재맥락화에서 정밀한 환각 평가의 필요성을 촉구합니다.
- 특정 오류 모드를 진단할 수 있도록 수작업 주석이 달린 벤치마크를 만듭니다.
- 객체 수준 및 배경 수준의 설명을 제공하는 다단계 탐지 파이프라인을 개발합니다.
- 데이터셋, 파이프라인, 코드의 오픈소스 공개를 통해 투명성을 촉진합니다.
제안 방법
- 재맥context화 작업을 위한 다섯 범주 환각 분류체계를 정의합니다.
- 배경 이미지, 객체 참조, 생성된 출력물, 수작업 주석을 포함한 1,269개의 샘플 데이터셋을 구성합니다.
- LLM + SAM 3 분할을 이용한 객체 추출, DINO v3 임베딩과 이분 매칭으로 객체적 충실도 검증, VLM 추론으로 배경 충실도 검증의 3단계 파이프라인을 제안합니다.
- 코사인 유사도, 매칭, VLM/LLM 기반 판단의 조합을 사용하여 변형, 생략, 배경 불일치를 탐지합니다.
- 기준 Vision-Language Models와 비교 평가하고 매크로 F1 및 LLM-as-a-Judge 의미론적 지표를 사용합니다.

실험 결과
연구 질문
- RQ1이미지 재맥락화 환각에서의 뚜렷한 실패 모드(분류체계)는 무엇인가?
- RQ2다단계 파이프라인은 엔드투엔드 VLM 베이스라인보다 환각을 더 정확히 탐지하고 설명할 수 있는가?
- RQ3객체 수준의 충실도와 배경 충실도가 전체 탐지 성능에 어떻게 기여하는가?
- RQ4다양한 프롬프트와 임계값이 범주별 탐지 정확도에 어떻게 영향을 미치는가?
- RQ5VIGIL과 Gemini 2.5 Flash, Qwen3-VL-8B-Instruct, Gemma 3 27B IT의 비교 성능은 어떠한가?
주요 결과
| Method | Clothing | Furniture | Cosmetics | Electronics | Cars |
|---|---|---|---|---|---|
| Gemini 2.5 Flash | 0.3649 | 0.3058 | 0.1441 | 0.2404 | 0.3962 |
| Qwen3-VL-8B-Instruct | 0.2852 | 0.3357 | 0.1486 | 0.2047 | 0.2421 |
| Gemma 3 27B IT | 0.2534 | 0.3487 | 0.1745 | 0.2227 | 0.3611 |
| VIGIL (ours) | 0.5029 | 0.3841 | 0.2275 | 0.1636 | 0.3306 |
- 제안된 VIGIL 파이프라인은 다중 레이블 탐지에서 베이스라인 대비 카테고리 전반에서 Macro F1-점수가 더 높습니다.
- 의류와 화장품 분야에서 VIGIL은 베이스라인에 비해 눈에 띄는 향상을 보이며, 분류체계 기반 출력으로 해석 가능성이 우수합니다.
- LLM-as-a-Judge 평가에 따르면 VIGIL은 독립 베이스라인보다 지상truth와의 의미론적 정렬이 더 좋습니다.
- VIGIL은 대부분의 카테고리에서 LLM-as-a-Judge 설정으로 독립적인 Qwen-3-VL-8B-Instruct 및 Gemma-3-27B-IT 베이스라인을 능가합니다.
- 해당 연구는 분해된 업무별 모듈이 단일 모놀리식 VLM 탐지기보다 성능이 더 강하다는 것을 보여줍니다.
- 데이터셋은 1,024장의 환각 이미지(80.7%)와 245장의 깨끗한 샘플(19.3%)을 포함하며 다섯 도메인(의류, 가구, 화장품, 전자제품, 자동차)에 걸칩니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.