Skip to main content
QUICK REVIEW

[論文レビュー] Textual Equilibrium Propagation for Deep Compound AI Systems

Min Chen, Wenlong Deng|arXiv (Cornell University)|Jan 28, 2026
Topic Modeling被引用数 0
ひとこと要約

TEP は局所平衡ベースの学習フレームワークを導入し、深い化合AIシステムの最適化を図る。テキスト勾配の爆発・消失を緩和し、グローバルバックプロパゲーション法(TextGradなど)を、ワークフローの深さが増すにつれて特に上回る。

ABSTRACT

Large language models (LLMs) are increasingly deployed as part of compound AI systems that coordinate multiple modules (e.g., retrievers, tools, verifiers) over long-horizon workflows. Recent approaches that propagate textual feedback globally (e.g., TextGrad) make it feasible to optimize such pipelines, but we find that performance degrades as system depth grows. In particular, long-horizon agentic workflows exhibit two depth-scaling failure modes: 1) exploding textual gradient, where textual feedback grows exponentially with depth, leading to prohibitively long message and amplifies evaluation biases; and 2) vanishing textual gradient, where limited long-context ability causes models overemphasize partial feedback and compression of lengthy feedback causes downstream messages to lose specificity gradually as they propagate many hops upstream. To mitigate these issues, we introduce Textual Equilibrium Propagation (TEP), a local learning principle inspired by Equilibrium Propagation in energy-based models. TEP includes two phases: 1) a free phase where a local LLM critics iteratively refine prompts until reaching equilibrium (no further improvements are suggested); and 2) a nudged phase which applies proximal prompt edits with bounded modification intensity, using task-level objectives that propagate via forward signaling rather than backward feedback chains. This design supports local prompt optimization followed by controlled adaptation toward global goals without the computational burden and signal degradation of global textual backpropagation. Across long-horizon QA benchmarks and multi-agent tool-use dataset, TEP consistently improves accuracy and efficiency over global propagation methods such as TextGrad. The gains grows with depth, while preserving the practicality of black-box LLM components in deep compound AI system.

研究の動機と目的

  • グローバルなテキストバックプロパゲーションを深い化合AIワークフローで直面する深さ関連の障害を特定する。
  • 自由相で局所平衡を、境界的編集を伴う微調整相を備えた自由相・撓んだ相(Textual Equilibrium Propagation, TEP)を提案する。
  • TEP が深さに対して複数ステップQAおよびツール使用ベンチマークでどの程度スケールするかを示す。
  • TEP がテキストGrad および関連ベースラインよりも精度と効率の点で上回ることを示す。

提案手法

  • 化合AIシステムをノード局所パラメータを持つ確率的計算グラフとしてモデル化する。
  • 爆発的および塌縮的なテキスト勾配を深さ依存の障害モードとして形式化する。
  • 自由相による局所平衡と、境界付きプロンプト編集を伴う撓んだ相の2相テキスト平衡伝播を提案する。
  • ノード局所の批評家と近接更新を用いて、限界を持つタスク適合的改善を保証する。
  • TextGradや他のベースラインと複数のベンチマークで経験的比較による検証。
  • グローバル調整には両相の必要性を示すアブレーション研究を提供。

実験結果

リサーチクエスチョン

  • RQ1TEP はグローバルなテキストバックプロパゲーション法(例:TextGrad)に対し深い化合AIパイプラインで上回ることができるか。
  • RQ2パイプラインの深さが増すにつれて爆発的・消失的なテキスト勾配は実務でどのように現れ、TEP はそれを緩和できるか。
  • RQ3TEP のどの構成要素(自由相、撓んだ相)が性能向上に最も寄与するか。
  • RQ4TEP は深さのスケーリング下でマルチステップQAやコード生成など多様なタスクに対してロバストか。

主な発見

  • TEP は4つのベンチマークすべてで最良の性能を達成し、HotpotQAで8.1%(次点比)およびBigCodeBenchで3.4%の顕著な向上を示す。
  • TEP はマルチステップQAおよびツール使用タスクにおいて、TextGradおよびTextGrad+Summarizationを一貫して上回る。
  • アブレーションにより、自由相または撓んだ相のいずれかを除去すると性能が低下し、それらの補完的役割を強調する。
  • TEP は深さとともに安定したスケーリングを示し、メッセージ長の指数的増大や特異性の喪失を回避する。
  • 解法最適化設定で、TEP は GPQA の精度およびオブジェクトカウントの精度をベースラインより改善する。
  • TextGrad に要約を追加すると推論重視タスクで性能が低下する可能性があり、圧縮ベース手法の限界を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。