[論文レビュー] A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity
本論文は、ChatGPTを23データセット(8タスク)に渡って評価するゼロショット・マルチタスク・マルチリンガル・マルチモーダルなベンチマーク枠組みを提案し、ゼロショットのマルチタスク能力で強みを示す一方、低リソース言語、推論の信頼性、幻覚、インタラクティブ性の利点などに限界があることを明らかにする。
This paper proposes a framework for quantitatively evaluating interactive LLMs such as ChatGPT using publicly available data sets. We carry out an extensive technical evaluation of ChatGPT using 23 data sets covering 8 different common NLP application tasks. We evaluate the multitask, multilingual and multi-modal aspects of ChatGPT based on these data sets and a newly designed multimodal dataset. We find that ChatGPT outperforms LLMs with zero-shot learning on most tasks and even outperforms fine-tuned models on some tasks. We find that it is better at understanding non-Latin script languages than generating them. It is able to generate multimodal content from textual prompts, via an intermediate code generation step. Moreover, we find that ChatGPT is 63.41% accurate on average in 10 different reasoning categories under logical reasoning, non-textual reasoning, and commonsense reasoning, hence making it an unreliable reasoner. It is, for example, better at deductive than inductive reasoning. ChatGPT suffers from hallucination problems like other LLMs and it generates more extrinsic hallucinations from its parametric memory as it does not have access to an external knowledge base. Finally, the interactive feature of ChatGPT enables human collaboration with the underlying LLM to improve its performance, i.e, 8% ROUGE-1 on summarization and 2% ChrF++ on machine translation, in a multi-turn "prompt engineering" fashion. We also release codebase for evaluation set extraction.
研究の動機と目的
- 要約、翻訳、感情分析、QA、対話、誤情報など、多様なNLPタスクとマルチリンガル設定におけるChatGPTのゼロショット性能を評価する。
- 視覚と言語を橋渡しする中間手段としてコードを用い、ChatGPTのマルチモーダル能力を評価する。
- 多ターンプロンプトにおけるChatGPTの推論、事実性/幻覚、インタラクティブ性の効果を定量化する。
- 提案された枠組み内でGPT-4を調査し、ChatGPTとの性能を比較する。
- 研究者向けに公に再現可能な評価プロトコルとデータセットアクセスを提供する。
提案手法
- ゼロショット設定のもと、8つのNLPタスクを網羅する23の公開データセットから結果を収集する。
- 言語を高資源/中資源/低資源/極端に低資源のカテゴリに分類して多言語性を評価する。
- コードベースのSVG描画タスクを用いて視覚と言語の相互作用を模擬し、マルチモーダル能力を探る。
- 整備されたQAデータセットを用いて、推論を10カテゴリで評価する(演繹的・帰納的・仮説的・時間的・空間的・数学的・因果的・常識的推論を含む)。
- COVID関連データセットとTruthfulQAベンチマークを用いて事実性と幻覚を測定する。
- 要約・翻訳・マルチモーダル生成タスクにおける多ターン promptingを通じたインタラクティビティを検討する。)
- research_questions:
- - どうなるのか
実験結果
リサーチクエスチョン
- RQ123データセット・8タスクにわたるゼロショットのマルチタスク評価で、ChatGPTはどのような性能を示すか?
- RQ2多言語理解と生成におけるChatGPTの長所と弱点は何か、特に低資源言語において?
- RQ3ChatGPTの中間コード表現はテキストと視覚のマルチモーダル機能を可能にするか?
- RQ4さまざまな推論カテゴリとデータセットにおけるChatGPTの推論の信頼性はどの程度か?
- RQ5対話型プロンプティング(マルチターン)は要約、翻訳、マルチモーダルタスクのChatGPTの性能をどの程度改善するか?
主な発見
- ChatGPTは9/13データセットで従来のゼロショットモデルを上回り、特定のタスクでは微調整済みモデルを上回ることができる。
- 特に翻訳において、極端に低資源言語や非ラテン文字スクリプトで性能が低下する。
- ChatGPTは帰納的・マルチホップ・空間・数学的推論に弱点を示す一方、常識的推論は比較的強い。
- 幻覚は継続し、タスク全体で外的な不正確さが見られる。社会的主張に対する検証拒否も観察される。
- インタラクティブな多ターンプロンプティングは、要約でのROUGE-1が約8%向上、機械翻訳でのChrF++が約2%向上など、測定可能な gains を生み、プロンプトエンジニアリング風の改善を可能にする。
- GPT-4は多くのタスクでChatGPTと同等かそれ以上を示し、特に帰納的・数学的・マルチホップ・時間的・空間的推論で顕著な改善が見られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。