QUICK REVIEW

[論文レビュー] Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks

Zhaofeng Wu, Linlu Qiu|arXiv (Cornell University)|Jul 5, 2023

Topic Modeling被引用数 18

ひとこと要約

この論文は、言語モデルが一般的な推論に基づく能力を持つのか、タスク固有の memorization に依存しているのかを評価する反事実評価フレームワークを提案し、反事実バリアントは一般的に性能を劣化させることを示唆しており、転移しないデフォルト条件特有の戦略が存在することを示唆する。

ABSTRACT

The impressive performance of recent language models across a wide range of tasks suggests that they possess a degree of abstract reasoning skills. Are these skills general and transferable, or specialized to specific tasks seen during pretraining? To disentangle these effects, we propose an evaluation framework based on "counterfactual" task variants that deviate from the default assumptions underlying standard tasks. Across a suite of 11 tasks, we observe nontrivial performance on the counterfactual variants, but nevertheless find that performance substantially and consistently degrades compared to the default conditions. This suggests that while current LMs may possess abstract task-solving skills to an extent, they often also rely on narrow, non-transferable procedures for task-solving. These results motivate a more careful interpretation of language model performance that teases apart these aspects of behavior.

研究の動機と目的

現在の言語モデルが一般化可能な推論かタスク固有の memorization に依存しているかを、反事実タスクバリアントでの性能評価によって検証する。
デフォルトタスク条件を変更したときの性能変化を定量化し、影響を及ぼす要因（プロンプトスタイル、ベース条件、デフォルトとの近さなど）を検討する。
LM 行動における抽象化と memorization を分離するためのフレームワークとデータセットを提供する。
反事実評価の再現性と拡張性を確保するためのコード、合成データ、および LM との相互作用を公開する。

提案手法

デフォルト世界 w^{default} で入力 x をもつタスク f を、入力出力の写像を変更しても推論手続きを保持する反事実世界 w^{cf} で評価する反事実評価フレームワークを提案する。
タスクと世界モデルの両方を記述したプロンプトを用い、0-shot プロンプティングで LM を問診し、タスク固有の指標を介して h(f,w,x) を測定する。
反事実世界をモデルが理解していることを保証するための反事実理解チェック CCC を導入し、デフォルト世界と反事実世界を区別するより簡易な制御タスク g_w を用いる。
算術、1-based 指数付きのプログラミング、統語推論、自然言語論理、空間推論、描画、音楽、チェス、SET などの11タスクに framework を適用する。
デフォルト条件と反事実条件の下で GPT-4、GPT-3.5、Claude、PaLM-2 を、ゼロショットの連鎖思考 prompting の有無とともに評価する。

実験結果

リサーチクエスチョン

RQ1言語モデルは反事実世界に対してタスク解法の手続きを一般化できるのか、それともデフォルト条件特有の戦略に依存しているのか。
RQ2デフォルト性能と反事実性能の間に、 diverse なタスクとモデルを横断してどのような関係があるのか。
RQ3ベース表現、世界との近さ、プロンプトスタイルなど、どの要因がデフォルトと反事実のギャップを調整するのか。
RQ4反事実理解チェックは、失敗が反事実プロンプトの誤解に起因するのか、抽象的推論の不足に起因するのかを示唆するのか。
RQ5少数ショット prompting や連鎖思考 prompting は、デフォルトと反事実のタスク変種間のギャップをどの程度埋めるのに役立つのか。

主な発見

反事実タスクバリアントは乱数以上の性能を示す一方で、デフォルトのタスク性能と比較すると大きく系統的に劣化する。
パフォーマンスのギャップはモデル（GPT-4、GPT-3.5、Claude、PaLM-2）や prompting の regimes を跨いでも持続し、デフォルト条件特有の非転移性の挙動を示唆する。
デフォルトと反事実の性能には相関が存在し、ある程度の転用可能な推論があることを示すが、多くの場合デフォルト条件へ過適合していることを示す。
反事実理解チェック CCC は成功時に高い傾向にあるが、デフォルト–反事実の大きなギャップが存在することは、抽象的かつ転用可能な推論の限界を示す。
反事実条件の「頻度の多さ」と「近さ」はギャップを調整し、より一般的または近接した反事実は劣化が小さくなる傾向があり、memorization の影響を示唆する。
0-shot の連鎖思考はタスク/モデル次第で有利にも不利にもなり得て、few-shot のデモンストレーションはデフォルト–反事実のギャップを減らすが完全には解消しない。
このフレームワークと結果は、LM のパフォーマンスを慎重に解釈することを促し、一般的な推論と memorized タスク固有の挙動を区別する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。