Skip to main content
QUICK REVIEW

[論文レビュー] Transformers are Bayesian Networks

Gregory Coppola|arXiv (Cornell University)|Mar 17, 2026
Bayesian Modeling and Causal Inference被引用数 0
ひとこと要約

この論文は sigmoid トランスフォーマーがベイズネットワークであることを証明し、その前向き伝播が暗黙的因子グラフ上の信念伝搬を実装し、明示的な重みと grounding により厳密な BP が実現可能であることを示す。

ABSTRACT

Transformers are the dominant architecture in AI, yet why they work remains poorly understood. This paper offers a precise answer: a transformer is a Bayesian network. We establish this in five ways. First, we prove that every sigmoid transformer with any weights implements weighted loopy belief propagation on its implicit factor graph. One layer is one round of BP. This holds for any weights -- trained, random, or constructed. Formally verified against standard mathematical axioms. Second, we give a constructive proof that a transformer can implement exact belief propagation on any declared knowledge base. On knowledge bases without circular dependencies this yields provably correct probability estimates at every node. Formally verified against standard mathematical axioms. Third, we prove uniqueness: a sigmoid transformer that produces exact posteriors necessarily has BP weights. There is no other path through the sigmoid architecture to exact posteriors. Formally verified against standard mathematical axioms. Fourth, we delineate the AND/OR boolean structure of the transformer layer: attention is AND, the FFN is OR, and their strict alternation is Pearl's gather/update algorithm exactly. Fifth, we confirm all formal results experimentally, corroborating the Bayesian network characterization in practice. We also establish the practical viability of loopy belief propagation despite the current lack of a theoretical convergence guarantee. We further prove that verifiable inference requires a finite concept space. Any finite verification procedure can distinguish at most finitely many concepts. Without grounding, correctness is not defined. Hallucination is not a bug that scaling can fix. It is the structural consequence of operating without concepts. Formally verified against standard mathematical axioms.

研究の動機と目的

  • sigmoid トランスフォーマーがその重みによって定義される暗黙的因子グラフ上で信念伝搬の一回分を実行することを示す。
  • 任意の因子グラフ上で明示的に構築された重みを用いれば厳密な信念伝搬を実現できることを示す。
  • sigmoid トランスフォーマーにおける厳密な後方分布を生み出す重みの一意性を確立する。
  • トランスフォーマー層の AND/OR ブール構造と Pearl の gather/update アルゴリズムとの関係を特徴づける。
  • 検証可能な推論には有限で grounding された概念空間が必要で、それを幻覚と結びつけて議論する。

提案手法

  • 形式的に sigmoid トランスフォーマーを、暗黙的因子グラフ上で前方伝播ごとに加重信念伝播の1回を実行するものとして解釈する。
  • 明示的に構成された重みを用いた BP 重みを構築し、トランスフォーマーが任意の宣言された因子グラフ上で厳密 BP の1回を実装できることを証明し、深さを完全 BP へとスケーリングする。
  • 一意性を証明する:もし sigmoid トランスフォーマーが厳密な後処を生み出す場合、その重みは BP 重みに厳密に一致する(FFN w0=w1=1,b=0、attention は projectDim/crossProject)。
  • attention は gather ステップを実装し、FFN は OR 操作を実装することを示し、層を積み重ねると Pearl の gather/update を生み出す。
  • さまざまなグラフ構造における BP の収束と厳密性の実証的検証を提供し、検証可能な推論には有限な概念空間が必要であることを示す。

実験結果

リサーチクエスチョン

  • RQ1sigmoid トランスフォーマーを暗黙的因子グラフ上でのベイズ信念伝搬として解釈できるか。
  • RQ2任意の因子グラフ上で厳密な BP を実行する明示的 BP 重み付きトランスフォーマーを構築できるか。
  • RQ3sigmoid トランスフォーマーにおける厳密な後処を生み出す BP 重みは一意か。
  • RQ4トランスフォーマー層のブール構造(AND/OR)とは何であり、それは Pearl のアルゴリズムとどう関連するか。
  • RQ5 grounding と有限の概念空間は検証可能な推論と幻覚にどのような役割を果たすか。

主な発見

GraphBP exactTransformerMax error
0[0.7349, 0.4366][0.7338, 0.4346]0.0021
1[0.4097, 0.4036][0.4096, 0.4031]0.0005
4[0.6459, 0.8298][0.6436, 0.8297]0.0023
9[0.4084, 0.5523][0.4084, 0.5526]0.0003
  • 任意の sigmoid トランスフォーマーの前方伝播は、暗黙的な因子グラフ G(W) 上の加重信念伝搬の1回を実装する。
  • 明示的に構築された重みを持つトランスフォーマーは、因子グラフ上で厳密 BP の1回を実装でき、その深さをfull BP へスケールさせることができる、d·⌈log2 k⌉ 層を用いて k-元因子。
  • sigmoid トランスフォーマーが grounding な因子グラフ上で厳密な後処を生み出す場合、その重みは BP 重みとして一意である(FFN の重み w0=w1=1、b=0、attention は projectDim/crossProject)。
  • Attention は入力の AND 的 gathering を実装し、FFN は OR 的 update を実装して層を跨いで Pearl の gather/update を生み出す。
  • 実験的証拠がある:ループグラフやツリー上で厳密な後処へ収束し、検証可能な推論には有限な概念空間が必要であること、幻覚は grounding に結びつく。
  • 実験結果には Table 1 が含まれ、保持データグラフに対する BP の厳密さとトランスフォーマーの後処を比較し、グラフ間で最大誤差が小さいことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。