[論文レビュー] Human-level 3D shape perception emerges from multi-view learning
本論文は自然主義的な視空間データで訓練された多視点ビジョン変換器がゼロショット課題で人間レベルの3D形状知覚を達成し、人間の正確さに匹敵し、タスク特異的な訓練なしに反応時間と誤差パターンを予測する。
Humans can infer the three-dimensional structure of objects from two-dimensional visual inputs. Modeling this ability has been a longstanding goal for the science and engineering of visual intelligence, yet decades of computational methods have fallen short of human performance. Here we develop a modeling framework that predicts human 3D shape inferences for arbitrary objects, directly from experimental stimuli. We achieve this with a novel class of neural networks trained using a visual-spatial objective over naturalistic sensory data; given a set of images taken from different locations within a natural scene, these models learn to predict spatial information related to these images, such as camera location and visual depth, without relying on any object-related inductive biases. Notably, these visual-spatial signals are analogous to sensory cues readily available to humans. We design a zero-shot evaluation approach to determine the performance of these `multi-view' models on a well established 3D perception task, then compare model and human behavior. Our modeling framework is the first to match human accuracy on 3D shape inferences, even without task-specific training or fine-tuning. Remarkably, independent readouts of model responses predict fine-grained measures of human behavior, including error patterns and reaction times, revealing a natural correspondence between model dynamics and human perception. Taken together, our findings indicate that human-level 3D perception can emerge from a simple, scalable learning objective over naturalistic visual-spatial data. All code, human behavioral data, and experimental stimuli needed to reproduce our findings can be found on our project page.
研究の動機と目的
- 3D知覚の認知理論を動機づけ、一般目的の多視点学習が人間レベルの3D推論に到達できるかを検証する。
- 3D形状タスクにおける多視点モデルと人間の性能を比較するゼロショット評価フレームワークを開発する。
- モデルの信頼度と処理深さが人間の正確さと反応時間に対応づくかを評価する。
提案手法
- 複数の視点からの場面セットで多視点ビジョン変換器(VGGT-1B、DUST3R、MAST3R、Pi3)を訓練し、空間手掛かり(深度、カメラ位置)を予測する。
- 微調整やタスク特異的訓練なしで3D形状知覚を評価するゼロショット逸脱タスク(A, A', B)を用いる。
- 深度不確実性に基づくモデル内在的不確定性をリードアウトとして活用し、一致しない対象を選択してマージンを計算する。
- VGGTをベースラインの単一視点モデル(DINOv2-L)およびさまざまな对象タイプに対する人間の性能と比較する。
- 計算深さを人間の反応時間へ対応づけるためにモデルのソリューション層を分析し、跨画像のアテンションを可視化して定性的洞察を得る。
- モデル出力と人間行動の対応を検証する補完的なゼロショット分析を提供する。
![Figure 1: Schematic of multi-view model training approach and 3D perceptual testing protocol. We evaluate a novel class of multi-view transformers (VGGT-1B, [ 36 ] ), which is trained on large-scale, multi-view, naturalistic scene data. During training, VGGT receives sets of images depicting the sam](https://ar5iv.labs.arxiv.org/html/2602.17650/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1自然主義的な視覚空間データからの多視点学習はゼロショット課題で人間レベルの3D形状推論を達成できるか。
- RQ2多視点モデルの正確さ、信頼度、処理ダイナミクスは3D知覚タスクにおける人間の行動(誤り、反応時間)と一致するか。
- RQ3観察された性能は多視点訓練によるものか、タスク特異的微調整や帰納的バイアスによるものか。
- RQ4モデルの注意と表現は3D空間での視点間のオブジェクト対応をどう反映するか。
主な発見
- VGGTは平均正規化精度83.0%(±3.7% SEM)を達成し、人間の性能78.9%(±3.0% SEM)と同等。
- DINOv2-Largeベースラインは28.5%(±4.9% SEM)で、VGGTと人間の両方を大きく下回った。
- 深度不確実性に基づくモデル信頼度のマージンはトライアル全体で人間の選択を予測(人間の正確さと高相関、r=0.83、p<0.001)。
- モデルのソリューション層の深さは人間の反応時間と相関(r=0.796、p<0.001)。
- 初期層で解ける試行は人間の反応が速く(平均RTはビンにより約3.24–4.24 s)、速度的な応答と対応。
- モデル応答の独立したリードアウトは人間の誤差パターンと反応時間を高精度に予測する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。