[論文レビュー] Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners?
この論文は現在の大規模言語モデルが算術の語題問題を解く際に人間のようなバイアスを示すかを調査し、三つの解法段階でのバイアスを特定し、指示チューニングを行った開源モデルを複数検証している。
There is increasing interest in employing large language models (LLMs) as cognitive models. For such purposes, it is central to understand which properties of human cognition are well-modeled by LLMs, and which are not. In this work, we study the biases of LLMs in relation to those known in children when solving arithmetic word problems. Surveying the learning science literature, we posit that the problem-solving process can be split into three distinct steps: text comprehension, solution planning and solution execution. We construct tests for each one in order to understand whether current LLMs display the same cognitive biases as children in these steps. We generate a novel set of word problems for each of these tests, using a neuro-symbolic approach that enables fine-grained control over the problem features. We find evidence that LLMs, with and without instruction-tuning, exhibit human-like biases in both the text-comprehension and the solution-planning steps of the solving process, but not in the final step, in which the arithmetic expressions are executed to obtain the answer.
研究の動機と目的
- LLMsを人間の学習の認知モデルとして用いる動機づけと、算術語題問題の解決における人間のバイアスと一致する点・乖離する点を特定する。
- 複数の prompting レジームで、指示チューニングの有無にかかわらず、オープンソースLMMsを実証的に評価してバイアスパターンを検出する。
- 条件付き平均処置効果(CATE)推定を用いて、特定の問題特徴がモデルの性能に与える因果効果を定量化する。
提案手法
- 問題解決を三段階の認知モデルとして提案し(テキスト理解、解決計画、解決実行)、MathWorldの論理形と記号表現の証明系列で実装する。
- ニューロ-シンボリックパイプラインを用いて、問題構造を固定し、メンタルモデルを具体化し、定型化されたテキストを出力し、後編集の訂正ステップを適用する、制御された算術語題データセットを生成する。
- 対生成を用いて、選択した特徴のxとx'バリアントを作成し、CATEで特徴の影響を因果推定できる。
- LLaMA2 7B/13B、Mistral 7B、Mixtral 8x7B、指示チューニング有無を問わず、直接プロンプティングおよび連鎖思考プロンプティングの下で、ゼロショット推論を用いて評価する。
- 観測されたCATEがゼロと異なるかを判定するために、対応のあるt検定を用い、適用可能な場合はp値を報告する。
実験結果
リサーチクエスチョン
- RQ1関係性を示すキーワードが求められる演算と一致する場合に、問題テキストに一貫性バイアスが現れるか?
- RQ2解法時のメンタル-modelレベルで、転送バイアスと比較バイアスをLLMsは示すか?
- RQ3記号表現の実行ステップでキャリー効果を示すか、特にキャリーを生じさせる数値で?
- RQ4直接プロンプティングと連鎖思考プロンプティングの各レジームで、指示チューニングあり vs なしのモデルは、これらのバイアスをどの程度示すかの比較は?
主な発見
- LLMsは問題テキストレベルで人間のような一貫性バイアスを示し、矛盾する記述の方が一貫した記述より正確性が低い。
- 転送バイアスと比較バイアスは、子どもの学習者と同様に、複数のモデルと prompting 設定で現れる。
- キャリー効果は、テストしたモデルと prompting 方法を通じて、実行ステップで一貫して観測されていない。
- 連鎖思考 prompting は、特定のバイアス(例:一貫性バイアス)を増幅させることがあるが、全体的な性能を向上させる場合もあり、モデルとタスク設定による。
- 指示チューニング済みモデルは、プリトレインドのみの変種に比べて、プロンプトレジームに応じて、特定のバイアスのCATEが大きい傾向がある。
- モデルとテストを通じて、いくつかのバイアスが統計的有意性を示す(主要な比較ではp値がしばしば0.01未満)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。