QUICK REVIEW

[論文レビュー] Towards a Mechanistic Interpretation of Multi-Step Reasoning Capabilities of Language Models

Yifan Hou, Jiaoda Li|arXiv (Cornell University)|Oct 23, 2023

Topic Modeling被引用数 1

ひとこと要約

この論文では、注意メカニズムのパターンを分析することで、言語モデル内に隠れた推論木を検出する新しい注釈ベースのプローブ手法であるMechanisticProbeを紹介する。この手法は、合成的および自然言語の推論タスクにおいて、GPT-2およびLLaMAの推論構造を成功裏に回復させ、モデルが記憶された答えに依存するのではなく、メカニズム的に多段階の推論を実行していることを示している。

ABSTRACT

Recent work has shown that language models (LMs) have strong multi-step (i.e., procedural) reasoning capabilities. However, it is unclear whether LMs perform these tasks by cheating with answers memorized from pretraining corpus, or, via a multi-step reasoning mechanism. In this paper, we try to answer this question by exploring a mechanistic interpretation of LMs for multi-step reasoning tasks. Concretely, we hypothesize that the LM implicitly embeds a reasoning tree resembling the correct reasoning process within it. We test this hypothesis by introducing a new probing approach (called MechanisticProbe) that recovers the reasoning tree from the model's attention patterns. We use our probe to analyze two LMs: GPT-2 on a synthetic task (k-th smallest element), and LLaMA on two simple language-based reasoning tasks (ProofWriter & AI2 Reasoning Challenge). We show that MechanisticProbe is able to detect the information of the reasoning tree from the model's attentions for most examples, suggesting that the LM indeed is going through a process of multi-step reasoning within its architecture in many cases.

研究の動機と目的

大規模言語モデル（LMs）が内部のメカニズム的プロセスによって多段階の推論を実行しているのか、それとも記憶された答えを想起しているのかを調査すること。
LMの推論における曖昧さを解消する：モデルは手続き的論理に従っているのか、それとも事前学習段階でのショートカットに依存しているのか。
LMの注意メカニズム内で推論ステップがどのようにエンコードされ実行されているかを機械的解釈するための手法を開発すること。
注意パターンが構造的推論木を反映しているかどうかを検証すること。これは単なるランダムな注意フローではない。
正確な推論木の回復が、モデルの耐性および性能向上と相関することを示すこと。

提案手法

推論木の回復を目的とした、2段階の非パrametricなプロービングフレームワークであるMechanisticProbeを提案する。
第1段階：注意パターンを用いて推論木内の有用な入力文（ノード）を特定する。
第2段階：注意フローから推論プロセスの階層的構造（木の高さ）を推定する。
単純な分類器を用いて、必要な推論ノードとその推論チェーン内での相対的位置を検出する。
GPT-2に対して合成的なk番目に小さい要素タスク、LLaMAに対してProofWriterおよびARCタスクにプローブを適用する。
アブレーション（注意ヘッドの除去）と、プロービングスコアとモデルの耐性との相関分析により、結果を検証する。

実験結果

リサーチクエスチョン

RQ1言語モデルは内部のメカニズム的プロセスによって多段階の推論を実行しているのか、それとも記憶された答えに依存しているのか？
RQ2LMの注意パターンは、正しい論理的導出を反映する構造的推論木をエンコードできるのか？
RQ3モデルの推論プロセスがその予測精度および耐性とどの程度相関しているのか？
RQ4推論木回復に寄与する注意ヘッドは、正しい予測にとって不可欠なのか？
RQ5プロービングスコアは、入力の摂動に対するモデルの耐性を予測できるのか？

主な発見

MechanisticProbeは、GPT-2およびLLaMAの複数のタスクにおいて、注意パターンから推論木を成功裏に回復させた。
モデルはネットワークの下位レイヤーで、特に初期段階に有用な入力文を特定しており、これは段階的推論プロセスを支持する。
MechanisticProbeが特定した注意ヘッドを除去すると、顕著な精度低下が生じ、それらが機能的に重要であることを確認した。
プロービングスコアが高い（推論木回復が良好な）モデルは、入力ノイズに対してより高い耐性を示し、プロービングスコアSP2が高い場合、テスト精度が約4%向上した。
高いプロービングスコアを示す例では、予測の信頼性が高く、入力の破損に対してもより強い耐性を示しており、これはメカニズム的推論が信頼性を高めることを示唆している。
本手法により、LMの注意メカニズムが単なる関連想起ではなく、手続き的推論を支援するように構造化されていることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。