QUICK REVIEW

[論文レビュー] FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight

Jiayi Zhou, Yang Sheng|arXiv (Cornell University)|Feb 11, 2026

Ethics and Social Impacts of AI被引用数 0

ひとこと要約

FormalJudge utiliza un pipeline neuro-simbólico y bidireccional de Formal-of-Thought donde los LLMs compilan intenciones de alto nivel en especificaciones Dafny y los solucionadores SMT verifican hechos atómicos, logrando garantías formales para la supervisión de agentes y superando a los baselines de LLM como Juez.

ABSTRACT

As LLM-based agents increasingly operate in high-stakes domains with real-world consequences, ensuring their behavioral safety becomes paramount. The dominant oversight paradigm, LLM-as-a-Judge, faces a fundamental dilemma: how can probabilistic systems reliably supervise other probabilistic systems without inheriting their failure modes? We argue that formal verification offers a principled escape from this dilemma, yet its adoption has been hindered by a critical bottleneck: the translation from natural language requirements to formal specifications. This paper bridges this gap by proposing , a neuro-symbolic framework that employs a bidirectional Formal-of-Thought architecture: LLMs serve as specification compilers that top-down decompose high-level human intent into atomic, verifiable constraints, then bottom-up prove compliance using Dafny specifications and Z3 Satisfiability modulo theories solving, which produces mathematical guarantees rather than probabilistic scores. We validate across three benchmarks spanning behavioral safety, multi-domain constraint adherence, and agentic upward deception detection. Experiments on 7 agent models demonstrate that achieves an average improvement of 16.6% over LLM-as-a-Judge baselines, enables weak-to-strong generalization where a 7B judge achieves over 90% accuracy detecting deception from 72B agents, and provides near-linear safety improvement through iterative refinement.

研究の動機と目的

Motivar la necesidad de supervisión fiable de agentes cada vez más autónomos basados en LLM en dominios de alto riesgo.
Cerrar la brecha entre requerimientos de lenguaje natural y verificación formal para aportar garantías matemáticas.
Proponer una arquitectura bidireccional que descompone intenciones en hechos atómicos y los verifica con solucionadores SMT.
Demostrar que la verificación formal puede superar a jueces puramente probabilísticos en varios benchmarks y modelos de agentes.

提案手法

Los LLMs funcionan como compiladores de especificaciones para descomponer de arriba hacia abajo la intención del usuario en restricciones atómicas verificables.
La extracción contextual-aware divide datos de trayectoria en hechos atómicos fundamentados mediante análisis determinista y extracción semántica asistida por LLM.
Recolecta especificaciones Dafny que codifican la composición lógica de hechos atómicos.
Boogie y Z3 SMT verifican las especificaciones generadas por Dafny para emitir un veredicto formal.
La arquitectura separa la extracción semántica neural de la verificación lógica determinista para proporcionar garantías verificables.

Figure 1 : Teaser: LLM agents face scalable oversight challenges: it is difficult to identify a reliable oversight agent. While the LLM-as-a-Judge baseline relies on probabilistic Chain-of-Thought reasoning, we introduces a Formal-of-Thought architecture that leverages LLMs as specification compiler

実験結果

リサーチクエスチョン

RQ1¿Puede la verificación formal proporcionar supervisión fiable y escalable para trayectorias agenticas mejor que jueces probabilísticos?
RQ2¿La descomposición de la supervisión en hechos atómicos y la verificación con solucionadores SMT logran una superior detección de fallos de seguridad y engaño a través de distintos modelos de agentes?
RQ3¿Pueden los LLMs compilar efectivamente intenciones en lenguaje natural en especificaciones formales que mantengan robustez ante diferentes niveles de potencia de los agentes?
RQ4¿La retroalimentación formal iterativa permite mejoras progresivas de seguridad en comportamientos de agentes?

主な発見

FormalJudge logra una mejora promedio de 16.6% sobre los baselines de LLM como Juez en 3 benchmarks y 7 modelos de agentes.
Un juez de 7B bajo FormalJudge alcanza más del 90% de precisión para detectar engaño de agentes de 72B, demostrando generalización débil a fuerte.
La retroalimentación de verificación formal permite una mejora de seguridad casi lineal mediante refinamiento iterativo en tres rondas.
La entrada estructurada ayuda pero no cierra la brecha hacia la verificación formal completa, subrayando la necesidad de composición determinista.
Las comprobaciones ejecutables en Python ayudan pero no brindan garantías formales como Dafny+Z3.
FormalJudge mantiene alta precisión de detección a través de diferentes niveles de sofisticación de ataques y tamaños de jueces, a diferencia de baselines puramente probabilísticos.

Figure 2 : The neuro-symbolic architecture and verification pipeline of FormalJudge . Panel (a) outlines the oversight workflow where an LLM compiles user intent into Dafny specifications and extracts atomic facts, enabling a Z3 SMT solver to provide deterministic proofs of correctness independent o

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。