[論文レビュー] Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue: An Empirical Study
本論文は、ChatGPTを3つの対話談話分析タスク(トピックセグメンテーション、談話関係認識、談話解析)で評価し、識別型プロンプトと生成型プロンプトを用い、Chain-of-Thought In-Context Learning(CoTICL)を用いて複雑なタスクで性能を向上させる。
Large language models, like ChatGPT, have shown remarkable capability in many downstream tasks, yet their ability to understand discourse structures of dialogues remains less explored, where it requires higher level capabilities of understanding and reasoning. In this paper, we aim to systematically inspect ChatGPT's performance in two discourse analysis tasks: topic segmentation and discourse parsing, focusing on its deep semantic understanding of linear and hierarchical discourse structures underlying dialogue. To instruct ChatGPT to complete these tasks, we initially craft a prompt template consisting of the task description, output format, and structured input. Then, we conduct experiments on four popular topic segmentation datasets and two discourse parsing datasets. The experimental results showcase that ChatGPT demonstrates proficiency in identifying topic structures in general-domain conversations yet struggles considerably in specific-domain conversations. We also found that ChatGPT hardly understands rhetorical structures that are more complex than topic structures. Our deeper investigation indicates that ChatGPT can give more reasonable topic structures than human annotations but only linearly parses the hierarchical rhetorical structures. In addition, we delve into the impact of in-context learning (e.g., chain-of-thought) on ChatGPT and conduct the ablation study on various prompt components, which can provide a research foundation for future work. The code is available at \url{https://github.com/yxfanSuda/GPTforDDA}.
研究の動機と目的
- 対話のトピックセグメンテーション、談話関係認識、談話解析におけるChatGPTの能力を評価する。
- 各タスクに対して識別的プロンプトと生成的プロンプト戦略を比較する。
- コンテキスト内学習アプローチ(VICLとCoTICL)を探究し、それらの性能への影響を評価する。
- 談話注釈者およびパーサーとしてのChatGPTの長所と限界を分析する。
- 対話談話分析のためのLLM活用に関する今後の研究の指針を提供する。
提案手法
- 3つのDDAタスクを生成問題として定式化する(トピックセグメンテーションを二値系列タグ付け、談話関係認識を多クラス分類、解析を有向非巡回グラフとして)
- 各タスクに対して2つのプロンプトパラダイムを設計する:識別的(多肢選択スタイル)と生成的(直接生成)
- 2つのコンテキスト内学習戦略を適用する:Vallina In-Context Learning (VICL) と Chain-of-Thought In-Context Learning (CoTICL)。
- 各タスクの既存データセットで評価する(トピックセグメンテーション:DialSeg_711, TIAGE, CNTD, ZYS;関係認識と解析:STAC, Molweni)。
- 評価フォーマットに合わせるためLLM出力を後処理し、Pk、Macro/Micro F1、Link/F1 などを計算する。

実験結果
リサーチクエスチョン
- RQ1対話データに対してChatGPTはトピックセグメンテーション、談話関係認識、談話解析をどのように実行するか?
- RQ2これらのタスクで生成型プロンプトは識別型プロンプトより優れているか?
- RQ3Chain-of-Thought In-Context Learningは複雑な談話解析タスクでChatGPTの性能を向上させるか?
- RQ4ChatGPTは不合理な談話関係を特定する有用な注釈者または支援者となり得るか?
- RQ5タスクを横断した対話談話構造のモデリングにおけるChatGPTの限界は何か?
主な発見
- 生成型プロンプトは3つのタスクすべてで一般に識別型プロンプトを上回る。
- ChatGPTは複数のデータセットでトピックセグメンテーションの競合的な性能を示し、いくつかのケースで最先端に近づくものの、複雑なタスクでは改善余地がある。
- 談話関係認識と解析の性能はトピックセグメンテーションより低く、監視下学習ベースの基準との差が顕著。
- CoTICLは解析性能を大幅に向上させ、複雑な談話構造タスクにおける多段階推論の利点を強調する。
- ChatGPTは良いトピック注釈者となり、不合理な談話関係の修正を補助できるが、解析における談話構造を完全に捉えるには難がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。