[論文レビュー] Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models
本論文は、LLMが一般的な抽象推論と訓練データの類似性のどちらに依存するかを検証するため、反事実の文字列アナロジー問題を作成し、人間は堅牢に成功する一方でGPTモデルは反事実変種で低下することを報告する。
Large language models (LLMs) have performed well on several reasoning benchmarks, including ones that test analogical reasoning abilities. However, it has been debated whether they are actually performing humanlike abstract reasoning or instead employing less general processes that rely on similarity to what has been seen in their training data. Here we investigate the generality of analogy-making abilities previously claimed for LLMs (Webb, Holyoak, & Lu, 2023). We take one set of analogy problems used to evaluate LLMs and create a set of "counterfactual" variants-versions that test the same abstract reasoning abilities but that are likely dissimilar from any pre-training data. We test humans and three GPT models on both the original and counterfactual problems, and show that, while the performance of humans remains high for all the problems, the GPT models' performance declines sharply on the counterfactual set. This work provides evidence that, despite previously reported successes of LLMs on analogical reasoning, these models lack the robustness and generality of human analogy-making.
研究の動機と目的
- LLMsが訓練データの類似性を超えた、人間に類する一般的な抽象的アナロジー推論を示すかを評価する。
- 反事実アルファベットおよび非文字記号を用いて、LLMsのアナロジー解決の頑健性を検証する。
- 元の問題と反事実問題の両方で、人間の性能をGPT-3、GPT-3.5、GPT-4と比較する。
- LLMsにおけるアナロジー生成の一般性を評価するためのデータセットと方法論を提供する。
提案手法
- サイズ n のアルファベットを {0,2,5,10,20} で置換し、非文字記号アルファベットを追加することにより、反事実のアナロジー問題を生成する。
- Webb らの六つの変換タイプと二つの一般化バリアントを用いて、各アルファベットサイズごとに420問題を作成し、非置換ケースを加える。
- 固定温度のゼロショットプロンプトの下で、人間(136名)と3つのGPTモデル(GPT-3、GPT-3.5、GPT-4)を評価する。
- 後継と前提をモデルが理解しているかを検証する反事実理解チェックを含める。
- アルファベットタイプと問題タイプの間で、正解率と誤分類タイプを比較して分析する。
実験結果
リサーチクエスチョン
- RQ1GPTモデルは人間と同様に反事実の文字列類推で性能を維持できるか?
- RQ2アルファベットの置換や記号置換はGPTモデルの類推推論能力にどのような影響を与えるか?
- RQ3GPTモデルのアナロジー能力は頑健で一般的か、それとも訓練データの類似性に大きく依存しているか?
主な発見
- 人間はアルファベットタイプを問わず、元の問題と反事象の問題の両方で高い性能を維持する。
- GPTモデルは元の問題で高い正答率を示す一方、反事実問題では低下し、GPT-3.5とGPT-4は人間より顕著に劣る。
- 標準アルファベットから置換アルファベットへ、さらに記号アルファベットへ移行するとGPTモデルの性能が低下し、一般性が限られていることを示唆する。
- GPTモデルは人間とは異なるエラー傾向を示し、創造的な代替規則よりも文字通りの解釈や誤った規則に頼る傾向が強い。
- 全体として、GPTモデルが一般的な抽象推論で人間に匹敵する類推を解くという主張に対して、結果は異議を唱える。)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。