QUICK REVIEW

[論文レビュー] Exploring Length Generalization in Large Language Models

Cem Anil, Yuhuai Wu|arXiv (Cornell University)|Jul 11, 2022

Topic Modeling被引用数 45

ひとこと要約

この論文は、トランスフォーマー型の大規模言語モデルがより長い問題インスタンスへ一般化する様子を分析し、ファインチューニングのみでは苦戦する一方で、文脈内のスクラッチパッド prompting が長さの一般化を劇的に改善することを示します。また、ファインチューニング、 prompting、スクラッチパッド戦略の相互作用と失敗モードを特定します。

ABSTRACT

The ability to extrapolate from short problem instances to longer ones is an important form of out-of-distribution generalization in reasoning tasks, and is crucial when learning from datasets where longer problem instances are rare. These include theorem proving, solving quantitative mathematics problems, and reading/summarizing novels. In this paper, we run careful empirical studies exploring the length generalization capabilities of transformer-based language models. We first establish that naively finetuning transformers on length generalization tasks shows significant generalization deficiencies independent of model scale. We then show that combining pretrained large language models' in-context learning abilities with scratchpad prompting (asking the model to output solution steps before producing an answer) results in a dramatic improvement in length generalization. We run careful failure analyses on each of the learning modalities and identify common sources of mistakes that highlight opportunities in equipping language models with the ability to generalize to longer problems.

研究の動機と目的

パリティおよび変数割り当てタスクを用いて、トランスフォーマーモデルの長さ一般化をパリティと状態追跡を要するタスクとして定義・特徴づける。
ファインチューニング、 prompting、スクラッチパッド法が、訓練長さと分布外長さを跨いだパフォーマンスをどのように示すかを評価する。
長さ一般化を妨げる失敗モードと文脈的要因を特定する。
スクラッチパッド prompting またはファインチューニングが、より長い問題長さへの外挿を可能にするかを調査する。

提案手法

長さを決定論的マルコフ過程の文脈で定義し、状態追跡を要する2つのタスク（パリティとブール変数割り当て）を研究する。
事前学習済みデコーダの全ファインチューニング、文脈内少数ショット prompting、スクラッチパッド（チェイン・オブ・ソート）推論など、複数の学習モードを評価する。
ファインチューニング・ prompting・スクラッチパッドの組み合わせをテストし、相互作用と失敗モードを観察する。
位置エンコーディング、注意散乱因子、シーケンス終了 signals に焦点を当てた失敗分析を実施する。
事前学習済みLLM に対するテンプレートベースの長さ generalization を評価するために、スクラッチパッド prompting を用いた実験を行う。
さまざま input length distribution が分布内性能と分布外性能に与える影響を記述する。

実験結果

リサーチクエスチョン

RQ1ファインチューニングを通じて学習されたトランスフォーマーモデルは、訓練長を超える長さの問題へ一般化できるか。
RQ2文脈内学習とスクラッチパッド推論は、ファインチューニングだけと比較して長さ一般化を改善するか。
RQ3長さ外挿を妨げる主な失敗モード（例：位置バイアス、EOS処理、ディストラクタ）とは何か。

主な発見

技術	分布内	分布外	尺度拡大での改善	備考
Finetune	✓✓	✗	✗
Prompting	✗	✗	✗
Fine-tune + Prompting	✓✓	✗	✗
Fine-tune + Scratchpad	✓✓	✗	✗
Prompting + Scratchpad	✓	✓	✓
Fine-tune + Prompting + Scratchpad	✓✓	✓✓ ∗	✓✓	∗ Task-dependency

長さ一般化タスクでのファインチューニングは、分布外性能が乏しくなる。スケールしても長さ一般化には有意な改善が見られない。
モデル規模とデータを増やしても、ファインチューニング下では長さ一般化が意味的に改善されない。
スクラッチパッド finetuning は長さの長い問題へ一般化できず、ディストラクタが重要な原因として特定される。
文脈内学習とスクラッチパッド prompting は、長さ一般化を劇的に改善し、テンプレートを長い長さへ外挿できるようにする。
少数ショットのスクラッチパッド prompting は、ベースモデルがすでにタスクで良い性能を示す場合（特にパリティ）に、ゼロショットよりも substantially 優れている。
ファインチューニング、 prompting、スクラッチパッド戦略の組み合わせの有効性はタスク依存であり、混合結果を招くことがある（パリティで強力、変数割り当てで弱い）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。