[論文レビュー] Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams
Sketch2Feedbackは、リブリックに整合したフィードバックを提供する4段階のgrammar-in-the-loopパイプラインを提案し、混在する結果がFBDと回路データセットで見られる。
Providing timely, rubric-aligned feedback on student-drawn diagrams is a persistent challenge in STEM education. While large multimodal models (LMMs) can jointly parse images and generate explanations, their tendency to hallucinate undermines trust in classroom deployments. We present Sketch2Feedback, a grammar-in-the-loop framework that decomposes the problem into four stages -- hybrid perception, symbolic graph construction, constraint checking, and constrained VLM feedback -- so that the language model verbalizes only violations verified by an upstream rule engine. We evaluate on two synthetic micro-benchmarks, FBD-10 (free-body diagrams) and Circuit-10 (circuit schematics), each with 500 images spanning standard and hard noise augmentation tiers, comparing our pipeline against end-to-end LMMs (LLaVA-1.5-7B, Qwen2-VL-7B), a vision-only detector, a YOLOv8-nano learned detector, and an ensemble oracle. On n=100 test samples per benchmark with 95% bootstrap CIs, results are mixed and instructive: Qwen2-VL-7B achieves the highest micro-F1 on both FBDs (0.570) and circuits (0.528), but with extreme hallucination rates (0.78, 0.98). An ensemble oracle that selects the best prediction per sample reaches F1=0.556 with hallucination 0.320 on FBDs, demonstrating exploitable complementarity between grammar and end-to-end approaches. Confidence thresholding at tau=0.7 reduces circuit hallucination from 0.970 to 0.880 with no F1 loss. Hard noise augmentation reveals domain-dependent robustness: FBD detection is resilient while circuit detection degrades sharply. An LLM-as-judge evaluation confirms that the grammar pipeline produces more actionable circuit feedback (4.85/5) than the end-to-end LMM (3.11/5). We release all code, datasets, and evaluation scripts.
研究の動機と目的
- エンドツーエンドのLMMが幻見を生み出す場合でも、学生が描くSTEM図へのタイムリーなリブリック整合フィードバックを動機付ける。
- 知覚と推論を分離して、フィードバックの信頼性と実行可能性を向上させる。
- ground-truthエラーを用いたFBD-10とCircuit-10ベンチマークで4段階パイプラインを評価する。
- 知覚、推論、生成がどこで成功・失敗するかを分析し、エラーを透明に帰属させる。
提案手法
- Stage 1はハイブリッドCV検出(CLAHE、適応閾値処理、輪郭、HoughLinesP)を用いてプリミティブを検出する。
- Stage 2は検出されたプリミティブから型付きシンボリックグラフG=(V,E)を構築する。
- Stage 3はシナリオキーに対してドメイン特有の局所および非局所制約検査を実行する。
- Stage 4は検証済みの違反のみを制約付きVLM(Qwen2-VL-2B)に入力してリブリック整合フィードバックを生成し、必要に応じてテンプレートへフォールバックする。

実験結果
リサーチクエスチョン
- RQ1grammar-in-the-loopパイプラインは、学生の図に対して根拠となる検証可能な観察に基づくリブリック整合フィードバックを提供できるか?
- RQ2モジュール型の知覚+推論は、図のエラーを検出し実行可能なフィードバックを生成する点でエンドツーエンドLMMと比較してどうか?
- RQ3知覚または推論の段階はどこで失敗し、エラー帰属は今後の改善をどのように導くか?
- RQ4提案手法は自由体図と回路図の両方でどのように性能を発揮するか?
- RQ5検出精度、フィードバック品質、幻視、較正、遅延のトレードオフはどうなるか?
主な発見
| Data | Model | Mi-F1 | P | R | Corr. | Act. | Hall. | Latency |
|---|---|---|---|---|---|---|---|---|
| FBD | Grammar | 0.263 [0.13,0.35] | 0.385 | 0.200 | 3.36 | 3.65 | 0.375 | 4.0s |
| FBD | E2E | 0.471 [0.36,0.62] | 0.571 | 0.400 | 3.91 | 4.35 | 0.375 | 4.5s |
| FBD | Vis. | 0.077 [0.18,0.45] | 1.00 | 0.040 | 2.20 | 2.05 | 0.000 | 5-6ms |
| Circuit | Grammar | 0.329 | 0.522 | 0.240 | 2.95 | 5.00 | 0.925 | 8.9s |
| Circuit | E2E | 0.038 | 0.333 | 0.020 | 3.81 | 4.03 | 0.750 | 3.7s |
| Circuit | Vis. | 0.000 | 0.000 | 0.000 | 1.70 | 2.20 | 0.200 | 5-6ms |
- エンドツーエンドLMMはFBDエラー検出でgrammarパイプラインを上回る(マイクロ-F1 0.471対0.263)し、FBD文脈でより強いフィードバックを提供する。
- grammarパイプラインは回路図でエンドツーエンドモデルを上回る(マイクロ-F1 0.329対0.038)し、実行可能性を完璧に達成する(5.0/5)。
- 文法パイプラインは回路図における幻視が高く(0.925)、知覚の偽陽性が原因でありLLMの生成ではなくStage 1に正確な故障帰属を可能にする。
- 文法パイプラインは違反が検出された場合、テンプレートベースの生成を介して完璧な回路フィードバック実行可能性(5.0/5)を達成する。
- 視覚だけのベースラインは幻視は非常に少ないが検出が不十分で、実行可能なフィードバックのためには構造化推論の必要性を強調する。
- 型別分析は補完的な強みを示す:grammarはFBDの構造的制約違反と回路の接地欠落に優れ、エンドツーエンドは見落としタイプのエラー(例:力の欠落)を検出する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。