QUICK REVIEW

[論文レビュー] TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

Daniel Nobrega Medeiros|arXiv (Cornell University)|Feb 27, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

TACIT Benchmarkは、6つのドメインで10のタスクにわたり決定論的検証を行う言語最小限のデュアル-trackビジュアル推論スイートを導入し、同一のパズルに対する生成モデルと識別モデルの再現可能な評価を可能にします。

ABSTRACT

Existing visual reasoning benchmarks predominantly rely on natural language prompts, evaluate narrow reasoning modalities, or depend on subjective scoring procedures such as LLM-as-judge. We introduce the TACIT Benchmark, a programmatic visual reasoning benchmark comprising 10 tasks across 6 reasoning domains: spatial navigation, abstract pattern completion, causal simulation, logical constraint satisfaction, graph theory, and topology. The benchmark provides dual-track evaluation: a generative track in which models must produce solution images verified through deterministic computer-vision pipelines, and a discriminative track offering five-way multiple choice with structurally plausible near-miss distractors. Each distractor violates exactly one structural constraint, requiring models to reason about fine-grained visual differences rather than exploit superficial cues. Version 0.1.0 distributes 6,000 puzzles (108,000 PNG images across three resolutions) with fully deterministic seeded generation and reproducible verification. The dataset, generation code, and evaluation harness are released under the Apache 2.0 license on HuggingFace (DOI: 10.57967/hf/7904).

研究の動機と目的

言語最小限で視覚的に指定されたベンチマークを提供し、視覚推論を言語能力から分離する。
同一の刺激に対してデュアル-track評価（生成と識別）を提供し、構成的推論と選択的推論を診断する。
computer-vision検証パイプラインによる再現可能で決定論的な採点を保証する。
空間的、因果的、論理的、グラフ理論的、トポロジー的、幾何学的推論を含む多様な推論ドメインを網羅する。
再現性のある研究のための拡張可能なオープンソースの生成・評価パイプラインを公開する。

提案手法

パラメータ化された難易度レベルを備えた六つの推論ドメインにわたる十のタスクを設計する。
モデルが解決画像を生成するか、5つの候補から選択するかというデュアル-track評価を実装する。
決定論的なタスク固有のコンピュータビジョンパイプラインを用いて生成出力を検証する。
SVGソースからパズルをレンダリングし、再現性のある評価のために3つのPNG解像度にラスター化する。
各ディストラクターがちょうど一つの構造的制約に違反するよう、単一制約ディストラクター系を採用する。
再現性を確保するために固定グローバルシードによるシードベースの決定論的なパズル生成を提供する。

実験結果

リサーチクエスチョン

RQ1モデルは決定論的CV検証をパスする正しい解像画像を生成することで構成的な視覚推論を示せるか。
RQ2同一TACITパズルに対する生成と識別のパフォーマンスのギャップはタスク間でどうなるか。
RQ36つの推論ドメインと3つの難易度でモデルのパフォーマンスはどうか。
RQ4ニアミスなディストラクターはモデルの特定の推論の弱点を効果的に診断できるか。
RQ5完全に自動化され、シード駆動の生成と検証パイプラインで結果はどれだけ再現可能か。

主な発見

ベンチマークは難易度をパラメータ化した6つのドメインにわたる10のタスクを提供する。
すべての生成出力に対して決定論的CVベース検証を備えたデュアル-track評価（生成と識別）をサポートする。
ディストラクターはちょうど一つの構造的制約を満たさないよう生成されるため、もっともらしくも不正解となる選択肢を確保する。
シードベースの決定論的生成を含む6,000パズル（3解像度で108,000 PNG画像）を公開する。
すべてのコンテンツとツールはHuggingFace上のApache 2.0オープンソースで提供され、再現可能な研究を促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。