QUICK REVIEW

[論文レビュー] A Preliminary Evaluation of ChatGPT for Zero-shot Dialogue Understanding

Wenbo Pan, Qiguang Chen|arXiv (Cornell University)|Apr 9, 2023

Topic Modeling被引用数 21

ひとこと要約

この論文は、ChatGPTのSLUとDSTに対するゼロショット能力を評価し、多ターンプロンプトでDSTの性能が高い一方、スロット充填は弱いことを示し、マルチターン対話型プロンプトフレームワークを提案する。

ABSTRACT

Zero-shot dialogue understanding aims to enable dialogue to track the user's needs without any training data, which has gained increasing attention. In this work, we investigate the understanding ability of ChatGPT for zero-shot dialogue understanding tasks including spoken language understanding (SLU) and dialogue state tracking (DST). Experimental results on four popular benchmarks reveal the great potential of ChatGPT for zero-shot dialogue understanding. In addition, extensive analysis shows that ChatGPT benefits from the multi-turn interactive prompt in the DST task but struggles to perform slot filling for SLU. Finally, we summarize several unexpected behaviors of ChatGPT in dialogue understanding tasks, hoping to provide some insights for future research on building zero-shot dialogue understanding systems with Large Language Models (LLMs).

研究の動機と目的

ChatGPTのSLUおよびDSTベンチマークに対するゼロショット対話理解能力を調査する。
シングルターンとマルチターン設定におけるプロンプト設計がChatGPTの性能に与える影響を評価する。
ゼロショット対話タスクにおけるChatGPTの挙動と限界を明らかにし、今後の研究に情報を提供する。

提案手法

スキーマ、規則、文入力を用いて、ゼロショットSLUの意図とスロットを引き出すよう設計されたプロンプト。
DST向けに、ChatGPTのターン間の文脈追跡を活用するマルチターン対話型プロンプトフレームワークを提案。
評価は、SLU（ATIS、SNIPS）およびDST（MultiWOZ 2.1、2.4）でChatGPTとGPT-3.5、Codex、およびSOTAベースラインを比較する。
分析にはエラーカテゴリ（未定義のスロット値、スロット形式違反、冗長な応答）とプロンプト長の考慮が含まれる。

実験結果

リサーチクエスチョン

RQ1ChatGPTは標準ベンチマークでゼロショットのSLUとDSTを実行できるか？
RQ2マルチターン対話型プロンプティング戦略は、シングルターンのプロンプトよりDSTを改善するか？
RQ3プロンプト設計（説明、例、名前）はSLUのスロット充填にどのように影響するか？
RQ4ゼロショット対話理解においてChatGPTはどのような予期せぬ挙動を示すか、そしてそれらをどう緩和できるか？

主な発見

Model	SNIPS Intent	SNIPS Slot	ATIS Intent	ATIS Slot	MultiWOZ2.1 JGA	MultiWOZ2.1 Slot Accuracy	MultiWOZ2.4 JGA	MultiWOZ2.4 Slot Accuracy
GPT-3.5	97.71	58.24	75.22	15.71	60.28	97.83	64.23	98.12
Codex	98.42	68.90	89.92	57.29	34.38	95.12	37.50	95.68
Finetuned SoTA	98.80	97.10	98.00	96.10	61.02	98.05	75.90	-
ChatGPT	97.71	58.24	75.22	15.71	60.28	97.83	64.23	98.12

ChatGPTはSLUおよびDSTベンチマークでゼロショット対話理解を達成するが、ファインチューニングされたSOTAとの差がある。
MultiWOZ 2.1/2.4 DSTでChatGPTはGPT-3.5とCodexを上回り、これはおそらくマルチターンプロンプトが文脈を活用した結果である。
SLUのスロット充填ではChatGPTのパフォーマンスが低いが、スロット名、説明、例を用いると改善する。
マルチターン対話型プロンプトは、シングルターンプロンプトと比較してDSTの性能を向上させる（例：JGA: 60.02 vs 58.05; Slot Accuracy: 97.80 vs 97.74）。
ChatGPTは予期せぬ挙動（未定義のスロット値、形式違反、冗長な出力）を示し、プロンプト長の制限が長い対話で忘却を引き起こすことがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。