[論文レビュー] Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of the Question Answering Performance of the GPT LLM Family
要約: 本論文は ChatGPT および GPT ファミリを、黒箱 CheckList フレームワークを用いて、~190k の実世界の KB ベースの複雑な QA ケースに対して従来の KBQA モデルと比較評価し、多言語性能と prompting の影響を分析し、GPT モデルは SOTA KBQA の性能には普遍的には及ばないが近づく場面があること、CoT プロンプトは特定の質問タイプには有効であることを示す。
ChatGPT is a powerful large language model (LLM) that covers knowledge resources such as Wikipedia and supports natural language question answering using its own knowledge. Therefore, there is growing interest in exploring whether ChatGPT can replace traditional knowledge-based question answering (KBQA) models. Although there have been some works analyzing the question answering performance of ChatGPT, there is still a lack of large-scale, comprehensive testing of various types of complex questions to analyze the limitations of the model. In this paper, we present a framework that follows the black-box testing specifications of CheckList proposed by Ribeiro et. al. We evaluate ChatGPT and its family of LLMs on eight real-world KB-based complex question answering datasets, which include six English datasets and two multilingual datasets. The total number of test cases is approximately 190,000. In addition to the GPT family of LLMs, we also evaluate the well-known FLAN-T5 to identify commonalities between the GPT family and other LLMs. The dataset and code are available at https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git
研究の動機と目的
- ChatGPT および GPT ファミリーモデルが、KB ベースの複雑な QA タスクにおいて従来の KBQA モデルに取って代わることができるかを評価する。
- KBQA における LLM のための特徴主導のラベリングと改良された回答評価を組み合わせたフレームワークを開発・適用する。
- 実世界の KBQA データセット8件(多言語データを含む)を横断して、GPT ファミリーモデルと FLAN-T5 を比較する。
- 問題タイプごとのパフォーマンスに対する安定性・制御性および思考過程のプロンプト(CoT)の影響を分析する。
提案手法
- 最小機能性、不変性、方向性期待テストを含む CheckList 黒箱テストフレームワークを採用する。
- 回答タイプ、推論タイプ、言語タイプに基づく質問の統一的な特徴ラベリング方式を作成する。
- LLMの出力から候補解答語句を抽出し、コサイン類似度を用いて Wikidata の別名と照合することで、正解一致評価を拡張する。
- ファジーマッチングにおける偽陽性と偽陰性のバランスをとるため、サンプリングによってEM閾値を経験的に選択する。
- GPT-3、GPT-3.5 系、ChatGPT、GPT-4、および FLAN-T5 を、英語六つと多言語二つの KBQA データセット(合計約190k 問)に跨って比較する。
- 多言語性能を評価し、異なる回答・推論タイプに対する prompting および CoT の影響を分析する。
実験結果
リサーチクエスチョン
- RQ1GPT ファミリ LLM は、従来の KBQA モデルと比較して、KB ベースの複雑な質問応答でどのように性能を示すか?
- RQ2KBQA における回答タイプや推論タイプの異なる中で、GPT ファミリモデルはどのような長所と弱点を示すか?
- RQ3GPT ファミリモデル間で多言語能力はどのように異なるか、GPT-4 は多言語設定で ChatGPT を上回るか?
- RQ4思考過程プロンプト(CoT)が、問タイプを横断した GPT ファミリーモデルの KBQA 性能に与える影響は?
主な発見
- GPT-ファミリ LLM は特定のデータセットで従来の KBQA ベースラインを上回ることがあるが、最新のベンチマークで普遍的に最先端の KBQA モデルを上回るわけではない。
- GPT-4 と ChatGPT は高い安定性を示し、多くの設定で従来のKBQAの性能に近づく。
- 新しい GPT 世代はデータセットを跨って一貫した性能向上を示し、FLAN-T5 は同様の定性的傾向を示すが、一般的には性能は劣る。
- 多言語評価では、GPT-4 は言語間で一貫して ChatGPT を上回らず、 multilingual KBQA における言語モデルの改善はニュアンスがあることを示唆する。
- 思考過程プロンプトは、いくつかの数値的・複雑な推論問題で性能を向上させる一方、他の質問タイプでは悪化させる可能性があり、プロンプトへのタスク感度を示す。
- CheckList ベースの評価は、モデル推論の大きなばらつきとある程度のランダム性を示すが、CoT プロンプトは特定のタスクで性能を向上させることがある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。