[論文レビュー] When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models
要約: 本論文は、FacesInThingsによる曖昧な顔様刺激の下で、6モデルを4つの表現 regime にまたがる検出、定位、不確実性、バイアスを解析する統一パレイドリア diagnostic フレームワークを提示する。
When visual evidence is ambiguous, vision models must decide whether to interpret face-like patterns as meaningful. Face pareidolia, the perception of faces in non-face objects, provides a controlled probe of this behavior. We introduce a representation-level diagnostic framework that analyzes detection, localization, uncertainty, and bias across class, difficulty, and emotion in face pareidolia images. Under a unified protocol, we evaluate six models spanning four representational regimes: vision-language models (VLMs; CLIP-B/32, CLIP-L/14, LLaVA-1.5-7B), pure vision classification (ViT), general object detection (YOLOv8), and face detection (RetinaFace). Our analysis reveals three mechanisms of interpretation under ambiguity. VLMs exhibit semantic overactivation, systematically pulling ambiguous non-human regions toward the Human concept, with LLaVA-1.5-7B producing the strongest and most confident over-calls, especially for negative emotions. ViT instead follows an uncertainty-as-abstention strategy, remaining diffuse yet largely unbiased. Detection-based models achieve low bias through conservative priors that suppress pareidolia responses even when localization is controlled. These results show that behavior under ambiguity is governed more by representational choices than score thresholds, and that uncertainty and bias are decoupled: low uncertainty can signal either safe suppression, as in detectors, or extreme over-interpretation, as in VLMs. Pareidolia therefore provides a compact diagnostic and a source of ambiguity-aware hard negatives for probing and improving the semantic robustness of vision-language systems. Code will be released upon publication.
研究の動機と目的
- 曖昧さの下で検出、定位、不確実性、そしてバイアスを研究するためのコンパクトなパレイドリア診断パイプラインを導入する。
- FacesInThings データセットを用いて4つのレジームをまたぐ6モデルに対して診断フレームワークを適用する。
- 曖昧さ、感情、難易度がモデルの挙動とバイアスをどのように変調するかを特徴付ける。
- 不確実性とバイアスはデカップリングされ、閾値よりも表現PRIORSに依存することを示す。
提案手法
- FacesInThings をパレイドリア刺激セットとして、人間が注釈した顔様の領域を5つの大まかなクラス(Human、Animal、Cartoon、Alien、Other)に分類する。
- 4つのレジームを横断する6モデルを評価する:CLIP-B/32、CLIP-L/14、LLaVA-1.5-7B、ViT-B/16、YOLOv8、RetinaFace。
- モデルの予測を共通の5クラス空間にマッピングし、予測と真の領域を緩やかな IoU(≥0.2)または中心包含ルールで対応づける。
- 核となる指標を計算する:Detection Rate、Primary Pareidolia Detection Rate (PPDR)、Representation Ambiguity Index (RAI)、False Bias Score (FBS)、および画像/ボックスレベルのバイアス指標。
- GTボックスを用いた制御評価を実施し、検出器の定位と意味論的ゲーティングを分離する。

実験結果
リサーチクエスチョン
- RQ1曖昧なパレイドリア刺激の下で、異なるモデルファミリは意味的証拠をどのように割り当てるのか。
- RQ2視覚と言語モデル、純粋な視覚モデル、検出器間で、パレイドリア反応を駆動する異なる機構(バイアス、不確実性、先行知識)は何か。
- RQ3感情と難易度がモデル間でパレイドリア・バイアスをどのように変調するか。
- RQ4不確実性は曖昧さの下で意味的安全性の信頼できる予測因子か。
- RQ5パレイドリアは視覚および視覚–言語システムの意味的ロバスト性を改善する診断として機能するか。
主な発見
- 視覚–言語モデルは、人間以外のパレイドリア領域に対して強い意味的活性化を示し、LLaVA は最も強力で最も自信をもって過剰解釈する傾向を示す、特にネガティブな感情のとき。
- 純粋な視覚モデル(ViT)は不確実性を“棄却”として反映し、曖昧さの下で広く拡散的かつ公正で偏らない挙動を示す。
- 検出器(YOLOv8、RetinaFace)は、定位を統制している場合でもパレイドリアを抑制する強い事前知識によって低バイアスを示す。
- 不確実性とバイアスはデカップリングされており、高い不確実性が必ずしも安全性を意味せず、低い不確実性が極端な過解釈(LLaVAの場合)や安全な抑制(検出器の場合)と共存することがある。
- 感情はVLMsのバイアスを変調し、ネガティブな感情はHumanの過剰呼称を増やす一方、検出器と純粋な視覚モデルは感情の影響が弱い。
![Figure 2 : Example images from the FacesInThings dataset [ hamilton2024seeing ] . Red bounding boxes indicate face-like regions perceived by human observers in otherwise inanimate objects.](https://ar5iv.labs.arxiv.org/html/2603.03989/assets/facesinthings.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。