[論文レビュー] ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models
本論文は、11の常識的QAデータセットでChatGPTおよび他のLLMを評価し、質問への回答能力、必要な知識の理解、正確な思い出、推論における活用を測定した。結果、ChatGPTは知識が豊富だが経験の浅い解答者で、知識を選択的に活用する能力には限界がある。
Large language models (LLMs) have made significant progress in NLP. However, their ability to memorize, represent, and leverage commonsense knowledge has been a well-known pain point. In this paper, we specifically focus on ChatGPT, a widely used and easily accessible LLM, and ask the following questions: (1) Can ChatGPT effectively answer commonsense questions? (2) Is ChatGPT aware of the underlying commonsense knowledge for answering a specific question? (3) Is ChatGPT knowledgeable in commonsense? (4) Can ChatGPT effectively leverage commonsense for answering questions? We conduct a series of experiments on 11 datasets to evaluate ChatGPT's commonsense abilities, including answering commonsense questions, identifying necessary knowledge, generating knowledge descriptions, and using knowledge descriptions to answer questions again. Experimental results show that: (1) ChatGPT can achieve good QA accuracies in commonsense tasks, while still struggling with certain domains of datasets. (2) ChatGPT is knowledgeable, and can accurately generate most of the commonsense knowledge using knowledge prompts. (3) Despite its knowledge, ChatGPT is an inexperienced commonsense problem solver, which cannot precisely identify the needed commonsense for answering a specific question. These findings raise the need to explore improved mechanisms for effectively incorporating commonsense into LLMs like ChatGPT, such as better instruction following and commonsense guidance.
研究の動機と目的
- GPTが多様な領域で常識質問に正確に答えられるかを評価する。
- GPTが常識知識を知っており、回答に必要な知識を列挙できるかを判断する。
- GPTが回答に必要な常識知識を思い出し、説明できるかを評価する。
- GPTが文脈で生成された知識を活用して推論を改善できるかを調査する。
提案手法
- 一般・物理・社会・科学・イベント・数値・典型・時間的領域を網羅する11の常識QAデータセットを使用する。
- GPT-3 (davinci)、GPT-3.5 (text-davinci-003)、およびChatGPTを比較し、GPT-3には4-shotプロンプト、GPT-3.5/ChatGPTには0-shotプロンプトを使用する。
- 各データセットでのQA精度を評価する。
- 各質問に対する回答に必要な知識をモデルに説明させ、それらの説明の精度/再現性を評価する。
- 生成された知識を文脈として使用してChatGPTに再度質問し、知識活用をテストする。
- 知識の正確さと回答の精度の相関を分析する。
実験結果
リサーチクエスチョン
- RQ1GPTは多様な領域で常識質問に効果的に答えられるか?
- RQ2GPTは常識に関する知識を有しており、関連する知識プロンプトを生成できるか?
- RQ3GPTは特定の質問に対して必要な基礎知識を知っているか?
- RQ4GPTは文脈で常識知識を活用して回答を改善できるか?
主な発見
| データセット | ドメイン | GPT-3 | GPT-3.5 | ChatGPT |
|---|---|---|---|---|
| CommonsenseQA | General | 38 | 81 | 74 |
| OpenBookQA | General | 22 | 65 | 73 |
| WSC | General | 46 | 78 | 78 |
| PIQA | Physical | 48 | 77 | 78 |
| Social IQA | Social | 36 | 71 | 62 |
| ARC | Science | 27 | 88 | 94 |
| QASC | Science | 25 | 75 | 74 |
| HellaSWAG | Event | 19 | 61 | 67 |
| NumerSense | Numerical | 45 | 63 | 79 |
| ProtoQA | Prototypical | 67.3 | 84.6 | 94.2 |
| MC-TACO | Temporal | 20 | 53 | 52 |
- GPTは常識タスクで良好なQA精度を達成するが、社会・イベント・時間的領域の特定の知識タイプには苦戦する。
- ChatGPTは知識が豊富で、プロンプトを使用してほとんどの常識知識を正確に生成できる。
- ChatGPTは経験不足の常識問題解決者であり、特定の質問に対して必要な知識を正確に特定できない。
- GPTは文脈で生成された知識を活用して回答を改善する能力が限定的であり、生成された知識説明を使用した場合にも混合的または有意な改善は見られない。
- 生成された必要知識の質(Knowledge F1)と全体の回答精度との間には強い相関がある(Pearson 0.77)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。