Skip to main content
QUICK REVIEW

[論文レビュー] FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight

Jiayi Zhou, Yang Sheng|arXiv (Cornell University)|Feb 11, 2026
Ethics and Social Impacts of AI被引用数 0
ひとこと要約

FormalJudge utiliza un pipeline neuro-simbólico y bidireccional de Formal-of-Thought donde los LLMs compilan intenciones de alto nivel en especificaciones Dafny y los solucionadores SMT verifican hechos atómicos, logrando garantías formales para la supervisión de agentes y superando a los baselines de LLM como Juez.

ABSTRACT

As LLM-based agents increasingly operate in high-stakes domains with real-world consequences, ensuring their behavioral safety becomes paramount. The dominant oversight paradigm, LLM-as-a-Judge, faces a fundamental dilemma: how can probabilistic systems reliably supervise other probabilistic systems without inheriting their failure modes? We argue that formal verification offers a principled escape from this dilemma, yet its adoption has been hindered by a critical bottleneck: the translation from natural language requirements to formal specifications. This paper bridges this gap by proposing , a neuro-symbolic framework that employs a bidirectional Formal-of-Thought architecture: LLMs serve as specification compilers that top-down decompose high-level human intent into atomic, verifiable constraints, then bottom-up prove compliance using Dafny specifications and Z3 Satisfiability modulo theories solving, which produces mathematical guarantees rather than probabilistic scores. We validate across three benchmarks spanning behavioral safety, multi-domain constraint adherence, and agentic upward deception detection. Experiments on 7 agent models demonstrate that achieves an average improvement of 16.6% over LLM-as-a-Judge baselines, enables weak-to-strong generalization where a 7B judge achieves over 90% accuracy detecting deception from 72B agents, and provides near-linear safety improvement through iterative refinement.

研究の動機と目的

  • Motivar la necesidad de supervisión fiable de agentes cada vez más autónomos basados en LLM en dominios de alto riesgo.
  • Cerrar la brecha entre requerimientos de lenguaje natural y verificación formal para aportar garantías matemáticas.
  • Proponer una arquitectura bidireccional que descompone intenciones en hechos atómicos y los verifica con solucionadores SMT.
  • Demostrar que la verificación formal puede superar a jueces puramente probabilísticos en varios benchmarks y modelos de agentes.

提案手法

  • Los LLMs funcionan como compiladores de especificaciones para descomponer de arriba hacia abajo la intención del usuario en restricciones atómicas verificables.
  • La extracción contextual-aware divide datos de trayectoria en hechos atómicos fundamentados mediante análisis determinista y extracción semántica asistida por LLM.
  • Recolecta especificaciones Dafny que codifican la composición lógica de hechos atómicos.
  • Boogie y Z3 SMT verifican las especificaciones generadas por Dafny para emitir un veredicto formal.
  • La arquitectura separa la extracción semántica neural de la verificación lógica determinista para proporcionar garantías verificables.
Figure 1 : Teaser: LLM agents face scalable oversight challenges: it is difficult to identify a reliable oversight agent. While the LLM-as-a-Judge baseline relies on probabilistic Chain-of-Thought reasoning, we introduces a Formal-of-Thought architecture that leverages LLMs as specification compiler
Figure 1 : Teaser: LLM agents face scalable oversight challenges: it is difficult to identify a reliable oversight agent. While the LLM-as-a-Judge baseline relies on probabilistic Chain-of-Thought reasoning, we introduces a Formal-of-Thought architecture that leverages LLMs as specification compiler

実験結果

リサーチクエスチョン

  • RQ1¿Puede la verificación formal proporcionar supervisión fiable y escalable para trayectorias agenticas mejor que jueces probabilísticos?
  • RQ2¿La descomposición de la supervisión en hechos atómicos y la verificación con solucionadores SMT logran una superior detección de fallos de seguridad y engaño a través de distintos modelos de agentes?
  • RQ3¿Pueden los LLMs compilar efectivamente intenciones en lenguaje natural en especificaciones formales que mantengan robustez ante diferentes niveles de potencia de los agentes?
  • RQ4¿La retroalimentación formal iterativa permite mejoras progresivas de seguridad en comportamientos de agentes?

主な発見

  • FormalJudge logra una mejora promedio de 16.6% sobre los baselines de LLM como Juez en 3 benchmarks y 7 modelos de agentes.
  • Un juez de 7B bajo FormalJudge alcanza más del 90% de precisión para detectar engaño de agentes de 72B, demostrando generalización débil a fuerte.
  • La retroalimentación de verificación formal permite una mejora de seguridad casi lineal mediante refinamiento iterativo en tres rondas.
  • La entrada estructurada ayuda pero no cierra la brecha hacia la verificación formal completa, subrayando la necesidad de composición determinista.
  • Las comprobaciones ejecutables en Python ayudan pero no brindan garantías formales como Dafny+Z3.
  • FormalJudge mantiene alta precisión de detección a través de diferentes niveles de sofisticación de ataques y tamaños de jueces, a diferencia de baselines puramente probabilísticos.
Figure 2 : The neuro-symbolic architecture and verification pipeline of FormalJudge . Panel (a) outlines the oversight workflow where an LLM compiles user intent into Dafny specifications and extracts atomic facts, enabling a Z3 SMT solver to provide deterministic proofs of correctness independent o
Figure 2 : The neuro-symbolic architecture and verification pipeline of FormalJudge . Panel (a) outlines the oversight workflow where an LLM compiles user intent into Dafny specifications and extracts atomic facts, enabling a Z3 SMT solver to provide deterministic proofs of correctness independent o

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。