QUICK REVIEW

[論文レビュー] A model of errors in transformers

Suvrat Raju, Praneeth Netrapalli|arXiv (Cornell University)|Jan 20, 2026

Cognitive and developmental aspects of mathematical skills被引用数 0

ひとこと要約

論文は、決定論的なトークンベースの課題に対するLLMの二パラメータ誤差モデルを提案し、効果場理論に触発された枠組みで task の複雑さと正確度を結び付け、複数のモデルと課題を横断して検証する。

ABSTRACT

We study the error rate of LLMs on tasks like arithmetic that require a deterministic output, and repetitive processing of tokens drawn from a small set of alternatives. We argue that incorrect predictions arise when small errors in the attention mechanism accumulate to cross a threshold, and use this insight to derive a quantitative two-parameter relationship between the accuracy and the complexity of the task. The two parameters vary with the prompt and the model; they can be interpreted in terms of an elementary noise rate, and the number of plausible erroneous tokens that can be predicted. Our analysis is inspired by an ``effective field theory'' perspective: the LLM's many raw parameters can be reorganized into just two parameters that govern the error rate. We perform extensive empirical tests, using Gemini 2.5 Flash, Gemini 2.5 Pro and DeepSeek R1, and find excellent agreement between the predicted and observed accuracy for a variety of tasks, although we also identify deviations in some cases. Our model provides an alternative to suggestions that errors made by LLMs on long repetitive tasks indicate the ``collapse of reasoning'', or an inability to express ``compositional'' functions. Finally, we show how to construct prompts to reduce the error rate.

研究の動機と目的

決定論的でトークンベースの課題におけるLLMのエラーの理解と予防を動機づける。
LLMの挙動の複雑さを r（トークンごとのノイズ率）と q（誤方向の数）という二パラメータへ還元する効果的なモデルを提案する。
正確度と課題の複雑さの定量的関係を導出し、それを効果場理論の観点から解釈する。
複数の課題とモデルを横断してモデルを経験的に検証し、成功する点と失敗する点を分析する。
エラー率を低減する実践的なプロンプトを提案し、構造的改善の道を議論する。

提案手法

物理学に触発された誤差モデルを開発し、実効モデル ${\,M}_{\text{eff}}$ が理想化されたモデルと同じアーキテクチャを共有するが、パラメータが撹乱されている。
複雑さ c を課題を解くのに必要な最小トークン処理として定義し、正確度 a が r と q（および不完全ガンマ関数）を含む二パラメータ式に従うと仮定する。
誤差分解を、q の妥当な方向と分散が v ~ c^{2α} のガウス分布係数で仮定し、経験的適合に基づき α=1 を設定する。
最終式 a = (1/Γ(q/2)) γ(q/2, q/(2 r c^{2α})) を導出し、スケーリング argument と注意層のダイナミクスで正当化する。
式を 8 課題、3 モデル、0.2 百万プロンプトで検証し、逸脱が生じる場面を分析する。
注意ノイズを低減し精度を改善するようトークンにタグを付けるプロンプト設計を検討する。

Figure 1 : Accuracy of Flash and Pro on multiplication using different prompts.

実験結果

リサーチクエスチョン

RQ1二パラメータモデル（r と q）で決定論的なトークンベース課題におけるLLMの誤差率を捕捉できるか。
RQ2課題の複雑さ c は正確度にどのように影響し、部分的ガンマ基底の式はモデルとプロンプト間で予測できるか。
RQ3LLM の効果場理論に触発された抽象化は、多様な算術・アルゴリズム課題における経験的観察と一致するか。
RQ4実務的なプロンプト設計戦略は注意関連のエラーを低減できるか。
RQ5モデルが失敗する条件は何か、そしてそのような失敗は仮定（例：A1）について何を示すか。

主な発見

提案された式 a = (1/Γ(q/2)) γ(q/2, q/(2 r c^{2α})) は 8 課題、3 モデル、0.2 百万プロンプトのデータに対して、q が概ね 1 のオーダーで適合する。
経験的検証は多くのケースで良い一致を示すが、いくつかの状況で逸脱が生じ、モデルを超える追加効果が存在することを示唆する。
1つの顕著なケース（Gemini Pro での素の加算）では式が崩れ、入力長さ間のアルゴリズムの一貫性を調査する動機づけとなる。
モデルを特定のアルゴリズムに従わせることを強制すると式との一致が回復し、誤差は注意におけるノイズ蓄積に起因する（根本的な推論崩壊ではない）という解釈を支持する。
トークンを多項式表現でタグ付けする実用的なプロンプト設計は精度を向上させ、誤差率を低減する経路を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。