QUICK REVIEW

[논문 리뷰] NoReGeo: Non-Reasoning Geometry Benchmark

Irina Abdullaeva, Anton Vasiliuk|arXiv (Cornell University)|2026. 01. 15.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

NoReGeo는 LLMs와 VLMs가 추론이나 대수 계산에 의존하지 않고 본래 기하학적 이해를 갖고 있는지 테스트하기 위해 25개 카테고리의 2,500개 아이템 기하학 벤치마크를 도입하여 현재 모델과 인간과 같은 기하학적 직관 사이의 차이를 드러낸다.

ABSTRACT

We present NoReGeo, a novel benchmark designed to evaluate the intrinsic geometric understanding of large language models (LLMs) without relying on reasoning or algebraic computation. Unlike existing benchmarks that primarily assess models' proficiency in reasoning-based geometry-where solutions are derived using algebraic methods-NoReGeo focuses on evaluating whether LLMs can inherently encode spatial relationships and recognize geometric properties directly. Our benchmark comprises 2,500 trivial geometric problems spanning 25 categories, each carefully crafted to be solvable purely through native geometric understanding, assuming known object locations. We assess a range of state-of-the-art models on NoReGeo, including frontier models like GPT-4, observing that even the most advanced systems achieve an overall maximum of 65% accuracy in binary classification tasks. Further, our ablation experiments demonstrate that such geometric understanding does not emerge through fine-tuning alone, indicating that effective training for geometric comprehension requires a specialized approach from the outset. Our findings highlight a significant gap in current LLMs' ability to natively grasp geometric concepts, providing a foundation for future research toward models with true geometric cognition.

연구 동기 및 목표

공간적으로 집중적인 AI 애플리케이션의 핵심 역량으로서 원천적인 기하학적 이해를 동기 부여하고 형식화한다.
NoReGeo를 도입하여 직관적 기하학으로만 해결 가능한 25개 기하학 카테고리에 걸친 2,500개 아이템의 크로스-모달 벤치마크를 제시한다.
기하학적 이해의 격차를 측정하기 위해 45개 이상의 최첨단 LLMs와 VLMs를 평가한다.
비전 인코더에 기하학 지식이 잠재적으로 존재하며 표준 LLM 학습에서 자생적으로 나타나지 않는다는 점을 보여준다.
진정한 기하학적 인지 능력을 가진 모델 개발 및 향후 연구 방향에 대한 시사점을 강조한다.

제안 방법

벤치마크는 정리된 정리로도 해결 가능한 기하학 문제 2,500개로 구성되며, 정리 없이 점 위치에서 해결 가능하다.
각 항목은 텍스트 전용 형식과 점선/전체 이미지를 갖춘 페어 다이어그램 형식으로 제공되어 크로스로모 evaluation가 가능하다.
평가는 다지선다에 대한 정확도와 수치 해답에 대해 ±0.5 내의 소프트 정확도를 사용하며, 순차적 추론을 방지하기 위해 엄격한 JSON 형식의 출력이 강제된다.
임베딩에서 기하학이 어떻게 표현되는지 평가하기 위해 비전 인코더에 대한 선형 탐지 실험(e.g., CLIP-ViT-B/32)을 수행한다.
시각-언어 모델은 텍스트 전용 입력과 전체 이미지 입력 모두로 평가되어 교차 모달 기하학적 이해를 측정한다.
제어된 평가 파이프라인은 고정 시드, 온도 0.6, 최대 출력 2048 토큰으로 구성되며, 최종 답변을 강제하기 위한 구조화된 출력 프롬프트를 사용한다.

Figure 1: Evaluation samples from NoReGeo benchmark. Each problem is shown in three formats – (a) text‑only, (b) text with dotted-image (points only), and (c) text with full-image (points plus connecting lines) – together with the golden answer (yellow) and the model’s prediction.

실험 결과

연구 질문

RQ1대형 언어 모델과 비전-언어 모델이 대수적 추론에 의존하지 않고 원천적인 기하학적 이해를 보이는가?
RQ2다중 모달 입력(text vs. dotted vs. full images)이 모델의 기하학적 과제 수행에 어떤 영향을 미치는가?
RQ3기하학적 역량이 비전 인코더에 잠재하는가, 선형 탐지를 통해 감지될 수 있는가, 그리고 미세 조정이 이 능력에 어떤 영향을 미치는가?
RQ4현재 모델의 기본 기하학 과제(분류, 수치, 불안정)에서 모달리티 간 상대적 강점과 약점은 무엇인가?

주요 결과

전체 시각적 맥락은 텍스트 전용 또는 점선 이미지 입력에 비해 VLM의 성능을 일관되게 향상시키며, 큰 폭의 이점을 제공한다.
일부 모델은 전체 이미지를 사용할 때 특정 과제에서 인간에 근접한 성능에 도달하지만, 전반적으로 많은 항목에서 인간 수준에 크게 미치지 못한다.
미세 조정만으로 기하학적 역량을 부여하지는 않으며,冻结된 비전 인코더에서의 선형 탐지를 통해 작업을 거의 완벽하게 해결할 수 있어 임베딩에 잠재된 기하학적 단서를 시사한다.
모델과 과제 간에 상당한 이질성이 존재하며, 카테고리 내 난이도가 고르게 분포하지 않는 것을 시사하는 높은 표준 편차가 나타난다.
일부 기하학 기술에 대한 교차 과제 전이는 선형 탐지를 통해 드러나지만, 전반적으로 NoReGeo는 현재 모델이 언어 학습만으로 기하학적 신호에 접근하는 데 여전히 도전적이다.

Figure 2: Distribution of model-level performance gaps per task category, comparing ‘text with full image‘ to ‘text with dotted image‘ setups.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.