[논문 리뷰] When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models
논문은 FacesInThings의 모호한 얼굴 유사 자극에서 여섯 모델에 걸친 네 가지 표현 체계에 걸친 탐지, 위치 추정, 불확실성 및 편향 분석을 위한 통합된 파레이돌리아 기반 진단 프레임워크를 제시한다.
When visual evidence is ambiguous, vision models must decide whether to interpret face-like patterns as meaningful. Face pareidolia, the perception of faces in non-face objects, provides a controlled probe of this behavior. We introduce a representation-level diagnostic framework that analyzes detection, localization, uncertainty, and bias across class, difficulty, and emotion in face pareidolia images. Under a unified protocol, we evaluate six models spanning four representational regimes: vision-language models (VLMs; CLIP-B/32, CLIP-L/14, LLaVA-1.5-7B), pure vision classification (ViT), general object detection (YOLOv8), and face detection (RetinaFace). Our analysis reveals three mechanisms of interpretation under ambiguity. VLMs exhibit semantic overactivation, systematically pulling ambiguous non-human regions toward the Human concept, with LLaVA-1.5-7B producing the strongest and most confident over-calls, especially for negative emotions. ViT instead follows an uncertainty-as-abstention strategy, remaining diffuse yet largely unbiased. Detection-based models achieve low bias through conservative priors that suppress pareidolia responses even when localization is controlled. These results show that behavior under ambiguity is governed more by representational choices than score thresholds, and that uncertainty and bias are decoupled: low uncertainty can signal either safe suppression, as in detectors, or extreme over-interpretation, as in VLMs. Pareidolia therefore provides a compact diagnostic and a source of ambiguity-aware hard negatives for probing and improving the semantic robustness of vision-language systems. Code will be released upon publication.
연구 동기 및 목표
- 모호성 하에서 탐지, 위치 추정, 불확실성 및 편향 연구를 위한 컴팩트한 파레이돌리아 진단 파이프라인을 소개한다.
- FacesInThings 데이터셋을 사용하여 여섯 모델에 걸쳐 네 가지 체계에서 진단 프레임워크를 적용한다.
- 모호성, 감정, 난이도가 모델의 행동과 편향을 어떻게 조절하는지 특징짓는다.
- 불확실성과 편향이 해석 임계값이 아니라 표현 priors에 의존하고 분리될 수 있음을 보여준다.
제안 방법
- 사람이 주석한 얼굴 유사 영역을 다섯 개의 대략적 클래스로 분류한 파레이돌리아 자극 세트로서 FacesInThings를 사용한다(클래스: Human, Animal, Cartoon, Alien, Other).
- 네 가지 체계에 걸친 여섯 모델을 평가한다: CLIP-B/32, CLIP-L/14, LLaVA-1.5-7B, ViT-B/16, YOLOv8, 및 RetinaFace.
- 모델 예측을 공통의 다섯 클래스 공간으로 매핑하고 예측을 지상-truth 영역에 대해 느슨한 IoU(≥0.2) 또는 중심 포함 규칙을 사용해 매핑한다.
- 핵심 지표를 계산한다: Detection Rate, Primary Pareidolia Detection Rate (PPDR), Representation Ambiguity Index (RAI), False Bias Score (FBS), 그리고 이미지/박스 수준의 편향 측정.
- GT-박스 제어 평가를 수행하여 탐지기의 위치 추정과 의미 게이팅을 분리한다.

실험 결과
연구 질문
- RQ1모호한 파레이돌리아 자극에서 서로 다른 모델 계열은 의미론적 증거를 어떻게 할당하는가?
- RQ2바이어스, 불확실성, priors 같은 서로 다른 기제가 시각-언어 모델, 순수 시각 모델, 검출기 간의 파레이돌리아 반응을 어떻게 주도하는가?
- RQ3감정과 난이도가 모델 간 파레이돌리아 편향에 어떻게 조절하는가?
- RQ4모호성 하에서 불확실성이 의미적 안전성을 신뢰할 수 있게 예측하는가?
- RQ5파레이돌리아가 비전 및 비전–언어 시스템의 의미적 강건성을 개선하기 위한 진단 도구가 될 수 있는가?
주요 결과
- 비전–언어 모델은 비인간 파레이돌릭 영역에서 Human에 대한 강한 의미 활성화를 보이며, LLaVA가 가장 강하고 가장 확신 있는 과잉 해석을 보이는 경향이 특히 부정적 감정에서 강하게 나타난다.
- 순수 시각 모델(ViT)은 불확실성-기권으로서의 태도를 반영하며, 모호성 하에서 여전히 확산되고 대체로 편향이 없다.
- 검출기(YOLOv8, RetinaFace)는 위치 추정이 제어되더라도 파레이돌리아를 억제하는 강한 priors를 통해 편향이 낮게 나타난다.
- 불확실성과 편향은 서로 얽매이지 않는다; 높은 불확실성이 안전성을 의미하지 않으며, 낮은 불확실성이 LLaVA에서 보이는 극단적 과해석이나 검출기에서 보이는 안전한 억제와 동시에 나타날 수 있다.
- 감정은 VLM에서 편향을 조절한다(부정적 감정이 Human 과다해석을 증가시키나, 검출기와 순수 시각 모델은 감정 효과가 더 약하다.)
![Figure 2 : Example images from the FacesInThings dataset [ hamilton2024seeing ] . Red bounding boxes indicate face-like regions perceived by human observers in otherwise inanimate objects.](https://ar5iv.labs.arxiv.org/html/2603.03989/assets/facesinthings.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.