Skip to main content
QUICK REVIEW

[論文レビュー] Energy-Entropy Regularization: The True Power of Minimal Looped Transformers

Wai-Lun Lam|arXiv (Cornell University)|Jan 14, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

要約: 本論文はエネルギー-エントロピー正則化を導入し、単一ヘッドのループ付きTransformer(d=8)を最小限のモデルで長距離帰納タスクに適用する。Tsallisエントロピーとハミルトン力学を用いて損失ランドスケープを再構成し、信頼性の高い収束を可能にする。

ABSTRACT

Recent research suggests that looped Transformers have superior reasoning capabilities compared to standard deep architectures. Current approaches to training single-head looped architectures on benchmark tasks frequently fail or yield suboptimal performance due to a highly non-convex and irregular loss landscape. In these settings, optimization often stagnates in poor local minima and saddle points of the loss landscape, preventing the model from discovering the global minimum point. The internal mechanisms of these single-head looped transformer models remain poorly understood, and training them from scratch remains a significant challenge. In this paper, we propose a novel training framework that leverages Tsallis entropy and Hamiltonian dynamics to transform the geometry of the loss landscape. By treating the parameter updates as a physical flow, we successfully trained a single-head looped Transformer with model dimension $d = 8$ to solve induction head task with input sequence length of 1000 tokens. This success reveals the internal mechanism behind the superior reasoning capability.

研究の動機と目的

  • 単一ヘッドのループ付きトランスフォーマーの学習が非凸損失ランドスケープのために困難である理由を動機づける。
  • Tsallisエ entropyを用いたエントロピー収束框組を開発し、学習を安定化させる。
  • 潜在空間を全球最小値へ導くためのハミルトン潜在ダイナミクスの視点を導入する。
  • エネルギー-エントロピー正則化損失を提案し、信頼できる収束のためのファネル状ランドスケープを作成する。
  • d=8 の最小モデルで、最大長さ1000トークンのシーケンスに対する長距離帰納能力を示す。

提案手法

  • Tsallisエントロピーを自己注意マップに適用し、自己注意ダイナミクスの収束域を得る。
  • 潜在状態の進化を位置Zと速度Vを用いる離散ハミルトン系としてモデル化する。
  • エネルギー型注意演算子F_tauと軌道を導く注意エネルギーE_tauを定義する。
  • 損失に3つの結合正則化項(運動エネルギー、ポテンシャル、エントロピー)を導入し、ハミルトン-ツァリス損失を形成する。
  • 探索から潜在状態の結晶化への位相遷移ドライブの最適化経路を示す。
  • Induction headタスクにおける長さ一般化を、シーケンス長1000まで評価し、FOP-Looped-Adaptiveと比較する。

実験結果

リサーチクエスチョン

  • RQ1Tsallisエ entropyベースの収束が、単一ヘッドのループトランスフォーマーの安定な固定点収束を保証するか?
  • RQ2エネルギー-エントロピー正則化が損失ランドスケープをファネル化し、全局最適化を促進するか?
  • RQ3最小限の単一ヘッドループトランスフォーマーは長距離帰納タスク(最大1000トークン)を解決可能か?
  • RQ4提案されたエネルギー-エントロピーフレームワーク下での長さ一般化はどうなるか?

主な発見

モデル潜在次元(d)ヘッド数(h)位置エンコーディング再帰深さ(T)トレーニングステップ学習率ウェイト減衰バッチサイズトレーニング範囲(L)損失目的
FOP-Looped-Adaptive6440.15× Sinusoidal25100k1e-40.056416–64Cross-Entropy (CE)
EER (Ours)810.15× Sinusoidal2520k1e-30.103216–64L_Task + L_Kinetic + L_Potential + L_Entropy
  • EERフレームワークは、d=8の単一ヘッドのループトランスフォーマーを訓練し、最大1000トークンのシーケンスで帰納頭タスクを解くことを示す。
  • EERはFOP-Looped-Adaptiveベースラインよりはるかに少ないパラメータでL=1000の長さ一般化を達成(ベースラインのパラメータ数の<0.02%程度と報告)。
  • エポック500付近で顕著な位相遷移が観察され、Acc L1000が33.5%から79.2%へ跳ね上がる。
  • 中間段階で精度がプラトーに達する(例: L=100で96.7%)後に安定化し、運動エネルギー駆動の探索からエネルギー優位の結晶化へ移行していることを示す。
  • 本手法は運動エネルギー、ポテンシャル、エントロピーの正則化を組み合わせ、損失ランドスケープをファunnel状ジオメトリへ変換し、最適化ノイズを低減して信頼できる収束を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。