QUICK REVIEW

[논문 리뷰] TangramSR: Can Vision-Language Models Reason in Continuous Geometric Space?

Yikun Zong, Cheston Tan|arXiv (Cornell University)|2026. 02. 05.

Spatial Cognition and Navigation인용 수 0

한 줄 요약

이 논문은 현재 비전-언어 모델이 Tangram 과제에서 연속 기하학적 추론에 어려움을 겪고 있음을 보여주고, 인-context 학습과 보상-guided 피드백을 활용한 테스트 시점 자기-수정 프레임워크를 도입해 재학습 없이 IoU를 크게 향상시킨다.

ABSTRACT

Humans excel at spatial reasoning tasks like Tangram puzzle assembly through cognitive processes involving mental rotation, iterative refinement, and visual feedback. Inspired by how humans solve Tangram puzzles through trial-and-error, observation, and correction, we design a framework that models these human cognitive mechanisms. However, comprehensive experiments across five representative Vision-Language Models (VLMs) reveal systematic failures in continuous geometric reasoning: average IoU of only 0.41 on single-piece tasks, dropping to 0.23 on two-piece composition, far below human performance where children can complete Tangram tasks successfully. This paper addresses a fundamental challenge in self-improving AI: can models iteratively refine their predictions at test time without parameter updates? We introduce a test-time self-refinement framework that combines in-context learning (ICL) with reward-guided feedback loops, inspired by human cognitive processes. Our training-free verifier-refiner agent applies recursive refinement loops that iteratively self-refine predictions based on geometric consistency feedback, achieving IoU improvements from 0.63 to 0.932 on medium-triangle cases without any model retraining. This demonstrates that incorporating human-inspired iterative refinement mechanisms through ICL and reward loops can substantially enhance geometric reasoning in VLMs, moving self-improving AI from promise to practice in continuous spatial domains. Our work is available at this anonymous link https://anonymous.4open.science/r/TangramVLM-F582/.

연구 동기 및 목표

연속 기하학적 추론에서 Tangram 퍼즐을 사용해 VLM의 성능을 평가하고 공간 정확도에서의 격차를 드러낸다.
단일 조각”和이 Tangram 작업에서 leading VLM의 성능 격차를 정량화한다.
학습 없이 테스트 시점의 자기-수정 프레임워크를 제안해 인-context 학습과 보상 가이드백을 통해 기하를 개선한다.
반복적 수정이 연속 공간 도메인에서 IoU를 크게 향상시킬 수 있음을 보여준다.
다중 모달 모델의 연속 공간 기하 평가를 위한 데이터셋 및 벤치마크를 제공한다.

제안 방법

템플릿 표준을 사용해 Tangram 샘플에 위치, 각도, 크기를 주석하고 픽셀 수준의 IoU를 계산한다.
제로샷 및 소수 샷 ICL 하에서 여러 VLM(Qwen-3B/72B, GPT-4o mini, LLaMA Maverick, Gemini-2.5-pro, Claude)을 평가한다.
512×512 캔버스에서 기하 기법 지표(L2 위치 오차, 각도 편차, 크기 오차, IoU)를 정의하고 계산한다.
기하학적 정밀도와 구성 추론을 점진적으로 테스트하기 위해 네 가지 작업(pos-only, angle-only, size-only, 두 조각)을 설계한다.
모델 매개변수를 업데이트하지 않는 IoU 및 위치 오차를 결합한 스칼라 보상을 최적화하는 테스트 시점 자기-수정 루프(ICL + 보상 기반 피드백)를 도입한다.
필요한 경우 결정적 수정을 위한 소규모 로컬 그리드 검색을 사용한다.

실험 결과

연구 질문

RQ1현재 VLM이 Tangram 조립과 같은 연속 기하 추론 과제에서 얼마나 잘 수행하는가?
RQ2단일 조각에서 두 조각으로의 Tangram 구성으로 진행될 때 성능이 어떻게 저하되는가?
RQ3재학습 없이도 ICL과 보상 기반 피드백으로 테스트 시점 자기-수정이 인간 수준의 기하학적 정밀도에 근접하게 격차를 줄일 수 있는가?
RQ4테스트 시점 수정의 효과성과 안정성을 좌우하는 핵심 요소(ICL 크기, 수정 루프 반복, 임계값)가 무엇인가?
RQ5Tangram을 넘어서는 다른 연속 공간 추론 작업에 이 수정 접근이 일반화 가능한가?

주요 결과

다섯 개의 VLM에서 단일 조각 IoU 평균은 약 0.41, 두 조각 IoU는 약 0.23으로 인간 성능에 jauh 못 미친다.
단일 조각 작업의 IoU는 각도 정확도에 크게 의존하며 각도 오차가 모델 전반에 걸쳐 지속된다.
두 조각 배열은 오차 누적 및 충돌 또는 미스에 가까운 상황으로 인해 성능이 크게 저하된다.
ICL 및 보상 가이드 루프를 통한 테스트 시점 자기-수정은 재학습 없이 중간 삼각형 IoU를 0.63에서 0.932로 개선해 상당한 이득을 얻는다.
수정 루프는 일반적으로 1–2 반복 내에 수렴하며, 6 반복이 거의 최적의 개선을 달성하는 데 충분하다.
최적 구성은 ICL k=15, Loop=6, 임계값 tau=0.9, 온도 = 0으로 확인되며, 더 큰 ICL 윈도우나 더 높은 온도는 노이스를 유발할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.