QUICK REVIEW

[論文レビュー] GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot Setting and Performance Boosting Through Prompts

Jéssica López Espejel, El Hassane Ettifouri|arXiv (Cornell University)|May 21, 2023

Topic Modeling被引用数 26

ひとこと要約

本論文は、GPT-3.5、GPT-4、BARDを eleven datasets に対するゼロショット推論で比較し、GPT-4 が一般に優れている一方、工学的プロンプトはゼロショット設定で全モデルの性能を向上させる。

ABSTRACT

Large Language Models (LLMs) have exhibited remarkable performance on various Natural Language Processing (NLP) tasks. However, there is a current hot debate regarding their reasoning capacity. In this paper, we examine the performance of GPT-3.5, GPT-4, and BARD models, by performing a thorough technical evaluation on different reasoning tasks across eleven distinct datasets. Our paper provides empirical evidence showcasing the superior performance of ChatGPT-4 in comparison to both ChatGPT-3.5 and BARD in zero-shot setting throughout almost all evaluated tasks. While the superiority of GPT-4 compared to GPT-3.5 might be explained by its larger size and NLP efficiency, this was not evident for BARD. We also demonstrate that the three models show limited proficiency in Inductive, Mathematical, and Multi-hop Reasoning Tasks. To bolster our findings, we present a detailed and comprehensive analysis of the results from these three models. Furthermore, we propose a set of engineered prompts that enhances the zero-shot setting performance of all three models.

研究の動機と目的

GPT-3.5、GPT-4、BARD のゼロショット推論能力を、演繹的、帰納的、アブダクティブ、アナロジー的、因果、マルチホップなど、複数の推論ドメインで評価する。
3つのモデルすべてに対して、エンジニアードプロンプトがゼロショット性能に与える影響を評価する。
公平なベンチマークとさらなる研究を可能にする再現可能なデータセットとプロンプトを提供する。

提案手法

演繹的、帰納的、アブダクティブ、数学、常識、因果、マルチホップのタスクを含む eleven の推論データセット全体を対象に、GPT-3.5、GPT-4、BARD を手動評価する。
データセットカテゴリとして、EntailmentBank、bAbI（task 15 と 16）、CLUTRR、alpha NLI、Math、CommonsenseQA、PiQA、Pep-3k、E-Care、HotpotQAを使用する。
各データセットに対して、確立済みプロンプトと著者追加プロンプト（いくつかはダガー付きでラベル付け）を組み合わせてゼロショットのプロンプトを適用する。
再現性を確保するため、サンプルとテストスイートを Appendix A に公開する。

実験結果

リサーチクエスチョン

RQ1多様な推論タイプにわたるゼロショット推論で、GPT-3.5、GPT-4、BARD はどのように性能を発揮しますか？
RQ2エンジニアードプロンプトは、3モデルとデータセット全体でゼロショット性能を有意に向上させますか？
RQ3帰納的、数学的、マルチホップ推論タスクにおける各モデルの相対的な強みと限界は何ですか？

主な発見

GPT-4 は、評価されたほぼすべてのタスクで、GPT-3.5 および BARD に対して一般的に優れたゼロショット性能を達成する。
プロンプトなしでは BARD が GPT-3.5 を上回ることがあるが、GPT-4 を上回ることはない；プロンプトがある場合も、GPT-4 が依然としてリードする。
3モデルすべて、帰納的、数学的、マルチホップ推論タスクで限られた能力を示す。
エンジニアリングされたプロンプトはデータセット全体で性能向上をもたらす；特に GPT-4 で顕著な向上が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。