[論文レビュー] On the "Induction Bias" in Sequence Models
この論文は、状態追跡タスクにおいてトランスフォーマーはイン-ディストリビューションデータをはるかに多く必要とする傾向があり、長さ依存的な解法を学びやすく、長さ間の共有がほとんどない。一方、再currentモデルは中間監視付きの場合に特に長さ間の学習を事前に共有できる。
Despite the remarkable practical success of transformer-based language models, recent work has raised concerns about their ability to perform state tracking. In particular, a growing body of literature has shown this limitation primarily through failures in out-of-distribution (OOD) generalization, such as length extrapolation. In this work, we shift attention to the in-distribution implications of these limitations. We conduct a large-scale experimental study of the data efficiency of transformers and recurrent neural networks (RNNs) across multiple supervision regimes. We find that the amount of training data required by transformers grows much more rapidly with state-space size and sequence length than for RNNs. Furthermore, we analyze the extent to which learned state-tracking mechanisms are shared across different sequence lengths. We show that transformers exhibit negligible or even detrimental weight sharing across lengths, indicating that they learn length-specific solutions in isolation. In contrast, recurrent models exhibit effective amortized learning by sharing weights across lengths, allowing data from one sequence length to improve performance on others. Together, these results demonstrate that state tracking remains a fundamental challenge for transformers, even when training and evaluation distributions match.
研究の動機と目的
- Transformersと再発性モデルの状態追跡タスクにおけるイン-ディストリビューションデータ効率を定量化する。
- 異なる監視形式の下で、系列長と状態空間サイズがデータ要件に与える影響を調べる。
- 学習した状態追跡メカニズムが異なる系列長間で共有されるかを調べる。
- 監視タイプ(アウトカム、CoT、Aligned CoT)が各モデルクラスのデータ効率に及ぼす影響を評価する。
- 誘導バイアスと長さ一般化能力および長さ間転移との関連を明らかにする。
提案手法
- モジュラー加算と置換の組み合わせタスクを、単純な状態追跡問題として用いる。
- データ効率を regime ごとに調べるため、系列長 L と状態空間サイズ m を変化させる。
- 6層のGPT-2風トランスフォーマーとLSTMおよび密な状態空間モデル(Dense-SSM)を比較する。
- 3つのタスク形式を評価する:Outcome Supervision、Chain-of-Thought (CoT)、Aligned Chain-of-Thought (ACoT)。
- N* を、ハイパーパラメータ網羅で収束を保証する最小トレーニングセットサイズとして定義し、二分探索で推定する。
- Sharing Factor κ を用いて、長さ間共有を、結合学習と長さごとの学習を比較して分析する。

実験結果
リサーチクエスチョン
- RQ1トランスフォーマーと再発性モデルの状態追跡タスクにおけるイン-ディストリビューションデータ効率の違いはどうなるか。
- RQ2トランスフォーマーとRNNは異なる系列長で学習した機構を共有するか、そしてこれが長さ一般化とどう関係するか。
- RQ3監視形式(Outcome、CoT、ACoT)は、各モデルクラスのデータ効率と長さ間転移にどう影響するか。
- RQ4複数長にまたがって学習する際に建設的干渉または破壊的干渉が生じるか、その長さ一般化とどのように関連するか。
主な発見
- トランスフォーマーは非Alignedな監視(CoT)を好み、長さ間の共有が乏しい長さ特異的解法を示す(κは概ね1以下、時には大きく1未満)。
- 再発系モデル(LSTM、Dense-SSM)はOutcomeおよびAligned CoT形式で長さ間共有が強く、長さ間の学習を事前に活用できる(κ >> 1)。
- Outcome監視の下では、再発モデルはより大きな状態空間と長い系列でトランスフォーマーよりも優れており、収束に必要なデータサンプル数がはるかに少ない。
- 中間監視(CoT/ACoT)では、長い系列は再発モデルのデータ効率を向上させる一方、トランスフォーマーは追加監視を活用しきれない。
- トランスフォーマーはCoTで非常に低い、または負の長さ間共有を示し、長さをまたぐ結合モデルの学習で干渉が生じる。
- 共有因子が高いほど、タスクとモデル種別を問わず長さ一般化が改善される傾向がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。