Skip to main content
QUICK REVIEW

[논문 리뷰] TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

Daniel Nobrega Medeiros|arXiv (Cornell University)|2026. 02. 27.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

TACIT 벤치마크는 10개 작업, 6개 도메인에서 결정적 검증을 갖춘 언어 최소의 이중 트랙 시각 추론 시스템을 도입하여, 동일한 퍼즐에 대해 생성적 모델과 판별적 모델의 재현 가능한 평가를 가능하게 한다.

ABSTRACT

Existing visual reasoning benchmarks predominantly rely on natural language prompts, evaluate narrow reasoning modalities, or depend on subjective scoring procedures such as LLM-as-judge. We introduce the TACIT Benchmark, a programmatic visual reasoning benchmark comprising 10 tasks across 6 reasoning domains: spatial navigation, abstract pattern completion, causal simulation, logical constraint satisfaction, graph theory, and topology. The benchmark provides dual-track evaluation: a generative track in which models must produce solution images verified through deterministic computer-vision pipelines, and a discriminative track offering five-way multiple choice with structurally plausible near-miss distractors. Each distractor violates exactly one structural constraint, requiring models to reason about fine-grained visual differences rather than exploit superficial cues. Version 0.1.0 distributes 6,000 puzzles (108,000 PNG images across three resolutions) with fully deterministic seeded generation and reproducible verification. The dataset, generation code, and evaluation harness are released under the Apache 2.0 license on HuggingFace (DOI: 10.57967/hf/7904).

연구 동기 및 목표

  • 시각적 추론과 언어 능력을 분리하기 위해 언어 최소화된 시각적으로 명시된 벤치마크를 제공한다.
  • 동일한 자극에 대해 이중 트랙 평가(생성적 및 판별적)를 제공하여 구성적 추론과 선택적 추론을 진단한다.
  • 컴퓨터 비전 검증 파이프라인을 통해 재현 가능하고 결정적 점수를 보장한다.
  • 공간적, 인과적, 논리적, 그래프 이론적, 위상학적, 기하학적 추론 등 다양한 추론 도메인을 다룬다.
  • 재현 가능한 연구를 위한 확장 가능하고 오픈 소스인 생성 및 평가 파이프라인을 공개한다.

제안 방법

  • 6개 추론 도메인에 걸친 10개의 작업을 난이도 매개변수화로 설계한다.
  • 생성 모델이 해결 이미지 생성 또는 다섯 후보 중에서 선택하는 이중 트랙 평가를 구현한다.
  • 생성 출력물을 검증하기 위해 결정적이고 작업 특정 컴퓨터 비전 파이프라인을 사용한다.
  • SVG 소스에서 퍼즐을 렌더링하고 재현 가능한 평가를 위해 세 가지 PNG 해상도로 래스터라이즈한다.
  • 각 디스트랙터가 정확히 하나의 구조적 제약을 위반하도록 단일 제약 방해 시스템을 사용한다.
  • 재현성을 보장하기 위해 고정된 글로벌 시드로 시드 기반의 결정론적 퍼즐 생성을 제공한다.
(a) Maze
(a) Maze

실험 결과

연구 질문

  • RQ1모델이 결정적 CV 검증을 통과하는 올바른 해답 이미지를 생성함으로써 구성적 시각 추론을 보일 수 있는가?
  • RQ2작업 전반에 걸친 동일한 TACIT 퍼즐에서 생성적 성능과 판별적 성능 사이의 차이는 무엇인가?
  • RQ36개 추론 도메인과 3개의 난이도에서 모델의 성능은 어떻게 나타나는가?
  • RQ4거의 탈락 수의 디스트랙터가 모델의 특정 추론 약점을 효과적으로 진단하는가?
  • RQ5완전 자동화된 시드 기반 생성 및 검증 파이프라인으로 결과의 재현성은 얼마나 높은가?

주요 결과

  • 벤치마크는 6개 도메인에 걸친 10개의 작업과 매개변수화된 난이도를 제공한다.
  • 모든 생성 출력에 대해 결정적 CV 기반 검증으로 이중 트랙 평가(생성적 및 판별적)를 지원한다.
  • 디스트랙터는 정확히 하나의 구조적 제약을 위반하도록 생성되어 그럴듯하지만 잘못된 선택지를 보장한다.
  • 발표에는 시드 기반 결정론적 생성으로 6,000개의 퍼즐(세 가지 해상도에 걸친 108,000장의 PNG 이미지)이 포함된다.
  • 모든 콘텐츠와 도구는 HuggingFace의 Apache 2.0 하에 오픈 소스이며 재현 가능한 연구를 가능하게 한다.
(b) Raven’s Matrices
(b) Raven’s Matrices

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.