[論文レビュー] The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding
本論文はPhysiCoを提示する。これは物理概念理解の総括的評価で、LLMsにおける確率的オウム現象を定量化するものであり、低レベルの言語性能が高いにもかかわらず、人間が高レベルの抽象課題でLLMsを著しく上回ることを示している。
In a systematic way, we investigate a widely asked question: Do LLMs really understand what they say?, which relates to the more familiar term Stochastic Parrot. To this end, we propose a summative assessment over a carefully designed physical concept understanding task, PhysiCo. Our task alleviates the memorization issue via the usage of grid-format inputs that abstractly describe physical phenomena. The grids represents varying levels of understanding, from the core phenomenon, application examples to analogies to other abstract patterns in the grid world. A comprehensive study on our task demonstrates: (1) state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs, as they fail on our grid task but can describe and recognize the same concepts well in natural language; (3) our task challenges the LLMs due to intrinsic difficulties rather than the unfamiliar grid format, as in-context learning and fine-tuning on same formatted data added little to their performance.
研究の動機と目的
- LLMsが単なる暗記を超えて物理概念を真に理解しているかを、低レベルの自然言語と高レベルの抽象的なグリッド表現という二段階の課題設計で評価する。
- 物理概念理解における最先端のLLMと humansの間の性能差を定量化する。
- 文脈内学習やグリッド形式データでのファインチューニングが抽象概念の理解を向上させるかを調査する。
提案手法
- 低レベル(テキストベースの概念定義、認識、生成)と高レベル(グリッド/抽象表現と連想タスク)の二段階の理解を備えるPhysiCoを設計する。
- Core(グリッドベースのコア特性)とAssociative(ARC由来の連想)サブタスクを含む52の物理概念を作成する。
- ゼロショット、ICL、SFT条件下で、オープンソースおよび商用のLLMの幅広い範囲を評価し、自動指標と人間指標を用いて分析する。
- 低レベルの理解を評価するために概念選択、生成、画像ベースの認識を使用し、グリッド・マトリックスベースのタスク(ARC由来)で高レベルの理解を評価する。
- 人間のベースラインと比較し、Chain-of-Thought promptingやマルチモーダル入力の効果を検討する。

実験結果
リサーチクエスチョン
- RQ1RQ1:LLMsは物理概念の定義や説明を含む低レベルサブタスクで良好に機能できるか?
- RQ2RQ2:人間はLLMsと同程度に物理概念の抽象的なグリッド表現を理解できるか?
- RQ3RQ3:グリッド/マトリックス表現(ARC風タスク)として提示された概念をLLMsは理解できるか。特にテキストのみ vs マルチモーダル入力で?
- RQ4RQ4:マルチモーダルLLMはPhysiCo CoreおよびAssociativeタスクで人間とのギャップを縮めるか?
- RQ5RQ5:文脈内学習やグリッド形式データでのファインチューニングは高レベルタスクの性能を著しく向上させるか?
- RQ6RQ6:ラベル付きPhysiCoデータでの学習からLLMsはどれだけ恩恵を受けるか?
主な発見
| モデル | Core-開発 | Core-テスト | Associative |
|---|---|---|---|
| GPT-3.5 | 26.5 ±2.5 | 24.4 ±0.8 | 30.0 ±2.5 |
| GPT-4 | 41.3 ±1.3 | 28.2 ±2.3 | 38.3 ±1.2 |
| GPT-4o | 34.0 ±2.9 | 31.3 ±2.9 | 35.5 ±2.5 |
| o3-mini-high | 46.0 ±1.0 | 46.5 ±1.0 | 42.5 ±1.0 |
| Mistral | 21.5 ±0.3 | 26.0 ±1.4 | 23.2 ±0.4 |
| Llama-3 | 23.5 ±2.5 | 27.3 ±0.6 | 21.7 ±2.0 |
| DeepSeek-R1 | 41.5 ±0.0 | 29.5 ±0.0 | 55.0 ±0.0 |
| multi-modal GPT-4v | 34.2 ±1.6 | 28.7 ±2.4 | 32.0 ±1.5 |
| GPT-4o (visual) | 52.3 ±0.8 | 45.2 ±2.3 | 36.5 ±0.4 |
| +CoT | 46.0 ±2.5 | 43.5 ±0.8 | 39.5 ±1.1 |
| o1 | 53.0 ±0.0 | 42.5 ±0.0 | 34.5 ±0.0 |
| Gemini2 FTE | 49.8 ±0.8 | 43.2 ±2.0 | 36.8 ±3.1 |
| InternVL | 26.3 ±1.6 | 26.9 ±4.1 | 24.8 ±1.3 |
| LLaVA | 26.2 ±1.1 | 28.5 ±1.5 | 24.7 ±3.2 |
| Humans | 92.0 ±4.3 | 89.5 ±5.1 | 77.8 ±6.3 |
- LLMsは低レベルのテキストベースの概念認識と生成タスクで高い精度(>95%)を達成する一方で、高レベルのグリッドベースのタスクでは人間より約40ポイント低く、確率的オウム行動を示す。
- 人間はPhysiCo Coreタスクを90%以上、Associativeタスクを約78%の正解率で解き、抽象的理解における人間と機械のギャップが顕著であることを示している。
- マルチモーダルLLM(例:GPT-4o)はいくつかのテキストのみモデルと比べてCoreの性能を向上させるが、依然として高レベルタスクで人間を下回り、Associativeタスクの性能は限定的のままである。
- Chain-of-Thoughtのような prompting 技術は限定的な利得をもたらす;訓練によるグリッドの慣れはギャップを有意に縮めない。
- PhysiCoデータでの文脈内学習とファインチューニングは限られた改善か無改善であり、深い理解のための現状の事前学習には内在的な限界を示唆している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。