[논문 리뷰] MACD: Model-Aware Contrastive Decoding via Counterfactual Data
MACD는 모델 인지 카운터팩추얼 데이터를 활용해 Video-LLMs의 대조 디코딩을 안내하고, 모델의 손실에 기반해 증거에 중요한 객체와 프레임을 마스킹하여 환각을 줄입니다.
Video language models (Video-LLMs) are prone to hallucinations, often generating plausible but ungrounded content when visual evidence is weak, ambiguous, or biased. Existing decoding methods, such as contrastive decoding (CD), rely on random perturbations to construct contrastive data for mitigating hallucination patterns. However, such a way is hard to control the visual cues that drive hallucination or well align with model weaknesses. We propose Model-aware Counterfactual Data based Contrastive Decoding (MACD), a new inference strategy that combines model-guided counterfactual construction with decoding. Our approach uses the Video-LLM's own feedback to identify object regions most responsible for hallucination, generating targeted counterfactual inputs at the object level rather than arbitrary frame or temporal modifications. These model-aware counterfactual data is then integrated into CD to enforce evidence-grounded token selection during decoding. Experiments on EventHallusion, MVBench, Perception-test and Video-MME show that MACD consistently reduces hallucination while maintaining or improving task accuracy across diverse Video-LLMs, including Qwen and InternVL families. The method is especially effective in challenging scenarios involving small, occluded, or co-occurring objects. Our code and data will be publicly released.
연구 동기 및 목표
- Video-LLMs의 환각 문제를 동기부여하고 해결합니다, 특히 약하거나 편향된 시각 증거 하에서.
- 모델 피드백을 이용해 목표 지향적인 반사실 입력을 생성하는 학습 없이 추론 시 방법을 제시합니다.
- 연결된 증거를 확보하기 위해 객체 수준 및 프레임 수준의 카운터팩추얼 데이터를 대조 디코딩에 통합합니다.
- 다양한 벤치마크와 백본 모델에서 견고성과 개선을 입증합니다.
제안 방법
- 비디오 프레임에서 YOLO 스타일 검출기로 객체를 탐지하고 시간적으로 일관된 객체 트랙을 형성합니다.
- 객체 수준 및 프레임 수준 마스크를 결합하여 반대사실 비디오를 만들어 마스킹된(교란된) 뷰를 생성합니다.
- 증거-중요 영역을 식별하기 위해 비디오-LLM의 재구성 손실에 대한 그래디언트 상승으로 마스크 강도를 최적화합니다.
- 반사실의 안정성과 해석 가능성을 위해 최적화된 강도를 {0, r0, 1}로 이산화합니다.
- 기저 뷰와 탐색된 반사실 뷰를 조정된 계수와 함께 사용하여 대조 디코딩을 적용하고 근거 있는 토큰을 촉진하며 환각을 억제합니다.
- 디코딩 단계마다 추가 피드포워드 한 번만 수행하는 학습 없이 설정을 유지합니다.
실험 결과
연구 질문
- RQ1모델 피드백을 사용하여 Video-LLM의 약점을 드러내는 targeted한 반사실 시각 교란을 어떻게 생성할 수 있을까?
- RQ2모델이 이끄는 객체 및 프레임 수준 마스킹이 무작위 교란이나 내부 토큰 억제보다 대조 디코딩을 개선하는가?
- RQ3MACD가 학습 없이 다양한 Video-LLMs와 벤치마크에서 정확도를 유지하거나 향상시키면서 호환되는가?
주요 결과
| 모델 | 방법 | 정밀도 | 재현율 | F1 | 정확도 | 정확도 | 정확도 | 정확도 |
|---|---|---|---|---|---|---|---|---|
| Qwen3-VL-2B | Baseline | 0.7606 | 0.6131 | 0.6829 | 0.5959 | 0.5467 | 0.55 | 0.463 |
| Qwen3-VL-2B | SID | 0.7947 | 0.7190 | 0.7768 | 0.7202 | 0.4799 | 0.4867 | 0.56 |
| Qwen3-VL-2B | VCD | 0.7485 | 0.9124 | 0.8224 | 0.7202 | 0.5567 | 0.5367 | 0.438 |
| Qwen3-VL-2B | MACD | 0.7564 | 0.9708 | 0.8471 | 0.7513 | 0.7733 | 0.616 | 0.643 |
| Qwen2.5-VL-3B | Baseline | 0.758064516129032 | 0.686131386861313 | 0.720306513409961 | 0.621761658031088 | 0.44 | 0.524476 | 0.541 |
| Qwen2.5-VL-3B | SID | 0.755555555555555 | 0.744525547445255 | 0.75 | 0.647668393782383 | 0.6508 | 0.35 | 0.506 |
| Qwen2.5-VL-3B | VCD | 0.735294117647058 | 0.72992700729927 | 0.732600732600732 | 0.621761658031088 | 0.4515 | 0.3467 | 0.513 |
| Qwen2.5-VL-3B | MACD | 0.804511278195488 | 0.781021897810219 | 0.792592592592592 | 0.709844559585492 | 0.67 | 0.608392 | 0.621 |
| Qwen2-VL-7B | Baseline | 0.614035087719298 | 0.255474452554744 | 0.360824742268041 | 0.357512953367875 | 0.4633 | 0.403333 | 0.445 |
| Qwen2-VL-7B | SID | 0.746268656716418 | 0.364963503649635 | 0.490196078431372 | 0.461139896373056 | 0.47 | 0.3133 | 0.429 |
| Qwen2-VL-7B | VCD | 0.661157024793388 | 0.583941605839416 | 0.620155038759689 | 0.492227979274611 | 0.41 | 0.3433 | 0.439 |
| Qwen2-VL-7B | MACD | 0.712871287128712 | 0.525547445255474 | 0.605042016806722 | 0.512953367875647 | 0.4967 | 0.42953 | 0.455 |
| InternVL3-8B | Baseline | 0.5964912280715 | 0.248175182 | 0.350515464 | 0.347150259 | 0.4633 | 0.3667 | 0.479 |
| InternVL3-8B | SID | 0.666666666666667 | 0.364963504 | 0.471698113 | 0.419689119 | 0.37 | 0.38 | 0.462 |
| InternVL3-8B | VCD | 0.636491228077 | 0.248175182 | 0.350515464 | 0.367150259 | 0.43 | 0.3467 | 0.437 |
| InternVL3-8B | MACD | 0.6687 | 0.4231 | 0.415273 | 0.43678 | 0.5467 | 0.4567 | 0.49 |
- MACD는 여섯 가지 백본과 네 가지 벤치마크에 걸쳐 일관되게 Baseline, VCD, SID를 능가합니다.
- 모델의 손실에 의해 안내된 객체 및 프레임 수준 마스킹은 재현율을 높이면서도 정밀도를 손상시키지 않아 F1 및 정확도가 더 높아집니다.
- MACD는 객체 환각 지표(Video-POPE)를 EventHallusion에서 정확도 0.72에서 0.85로, F1 0.70에서 0.80으로 향상시키고, false-yes 비율을 40.0%에서 17.0%로 감소시킵니다.
- 제거 실험은 전체 MACD 구성(개별 객체 강도 및 프레임 마스크)이 Recall과 Precision의 최적 균형을 가져옴을 보여줍니다.
- 인간 평가에서 MACD 마스크가 무작위 차단보다 질의-관련 증거에 더 초점을 둔다고 확인되었습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.