[論文レビュー] Thinking with Constructions: A Benchmark and Policy Optimization for Visual-Text Interleaved Geometric Reasoning
GeoAux-Benchを導入し、幾何問題の推論中に視覚補助の作成手順と真の視覚更新を結びつけるベンチマークを提案、A2POを提案。適応報酬 shapingを用いた強化学習フレームワークで、推論時におけるビジュアル支援の構築時期と方法を最適化する。
Geometric reasoning inherently requires "thinking with constructions" -- the dynamic manipulation of visual aids to bridge the gap between problem conditions and solutions. However, existing Multimodal Large Language Models (MLLMs) are largely confined to passive inference with static diagrams, lacking the strategic knowledge of when and how to construct effective visual aids. To address this, we present a framework for Visual-Text Interleaved Chain-of-Thought. We first introduce GeoAux-Bench, the first benchmark comprising 4,334 geometry problems that aligns textual construction steps with ground-truth visual updates. Our pilot study reveals two critical insights: (1) interleaved visual-textual aids outperform single-modality counterparts, which cannot losslessly capture geometric synergy; and (2) valid constructions act as entropy reducers, strongly correlating with reduced reasoning perplexity. Building on these findings, we propose Action Applicability Policy Optimization (A2PO), a reinforcement learning paradigm for mastering strategic construction. A2PO employs Adaptive Reward Shaping to regulate the timing and quality of visual aids via counterfactual sampling to distinguish necessary from redundant constructions. Experiments demonstrate our approach enables MLLMs to leverage selective auxiliary constructions, yielding a 3.51% gain over strong baselines. Code and data are available on GitHub.
研究の動機と目的
- 動的なビジュアル構築を活用するマルチモーダルプロセスとしての幾何推論を動機づける。
- テキスト補助構成と対応する視覚更新を対になるGeoAux-Benchを作成する。
- 連携した視覚-テキスト推論が単一モダリティより優れており、推論の不確実性を低減することを示す。
- 適応的にスケジュールし品質管理を行う視覚構築を最大化する強化学習フレームワークA2POを提案する。
- 適応的報酬 shapingとビジュアル再 promptingがGeoAux-Benchおよび外部幾何ベンチマークで最先端の改善をもたらすことを示す。
提案手法
- GeoAux-Benchを4,334の幾何問題と8,470図を含み、明示的なT_aux <-> I_auxの整列を含む。
- Textual-Only、Visual-Only、Interleaved設定をパイロット研究として比較し、モダリティの補完性とパープレキシティへの影響を定量化する。
- Counterfactual推論経路を可能にするTri-Partition Sampling方式(O+、O-、O)を用いたGRPO上に構築されたAction Applicability Policy Optimization(A2PO)を導入する。
- 有益で低エントロピーな補助構築を促進するAdaptive Reward Shaping(TimingとQuality報酬を使用)を用いる。
- 推論時には、構築が正しいと検証された場合に補助図を注入するVisual Re-promptingを適用する。
- 現在のモデルにおける連携推論を模擬するためのretrievalベースのビジュアル統合を提示する。
実験結果
リサーチクエスチョン
- RQ1幾何推論において対応する視覚図の情報内容を、テキスト補助指示だけで十分に捉えられるか。
- RQ2視覚-テキストを連携した構成は、幾何問題解法において単一モダリティを上回るか。
- RQ3適応報酬 shapingは、補助的視覚支援の構築時期と方法を効果的に支配できるか。
- RQ4視覚の顕著性と高品質な構築は、推論の困惑度を低減し精度を向上させるか。
主な発見
- 連携した視覚-テキスト支援は単一モダリティを上回り、パイロット評価で最大1.97%の改善を示した。
- 有効な補助構築はエントロピーを低減し、推論の困惑度低下と推論の確信度向上と相関する。
- Tri-Partition SamplingとAdaptive Reward Shapingを備えたA2POは、GeoAux-Benchで強力なベースラインを最大3.51%上回る。
- GeoAux-Benchおよび外部幾何データセットで、A2POはGRPO、ToRL、GeometryZeroのベースラインを一貫して上回り、7Bモデルスケールで顕著な伸びを示した。
- 補助図の視覚的顕著性の向上は困惑度を低減し精度を向上させ、幾何推論の前提として知覚の明瞭さが重要であることを示す。
- アブレーション研究は視覚再 promptingが重要であり、テキストのみまたは静的視覚ガイダンスを超えて性能を大幅に向上させることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。