[论文解读] Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue: An Empirical Study
本文在三个对话话语分析任务(topic segmentation、discourse relation recognition、discourse parsing)上评估 ChatGPT,使用 discriminative 与 generative 提示,并且 Chain-of-Thought In-Context Learning (CoTICL) 在复杂任务中提升了性能。
Large language models, like ChatGPT, have shown remarkable capability in many downstream tasks, yet their ability to understand discourse structures of dialogues remains less explored, where it requires higher level capabilities of understanding and reasoning. In this paper, we aim to systematically inspect ChatGPT's performance in two discourse analysis tasks: topic segmentation and discourse parsing, focusing on its deep semantic understanding of linear and hierarchical discourse structures underlying dialogue. To instruct ChatGPT to complete these tasks, we initially craft a prompt template consisting of the task description, output format, and structured input. Then, we conduct experiments on four popular topic segmentation datasets and two discourse parsing datasets. The experimental results showcase that ChatGPT demonstrates proficiency in identifying topic structures in general-domain conversations yet struggles considerably in specific-domain conversations. We also found that ChatGPT hardly understands rhetorical structures that are more complex than topic structures. Our deeper investigation indicates that ChatGPT can give more reasonable topic structures than human annotations but only linearly parses the hierarchical rhetorical structures. In addition, we delve into the impact of in-context learning (e.g., chain-of-thought) on ChatGPT and conduct the ablation study on various prompt components, which can provide a research foundation for future work. The code is available at \url{https://github.com/yxfanSuda/GPTforDDA}.
研究动机与目标
- 评估 ChatGPT 在对话主题分割、话语关系识别和话语解析方面的能力。
- 比较每个任务中的判别型与生成型提示策略。
- 探索上下文学习方法(VICL 和 CoTICL)及其对性能的影响。
- 分析 ChatGPT 作为话语标注者和解析器的优势与局限。
- 为未来在对话话语分析中利用大型语言模型的研究提供指引。
提出的方法
- 将三项 DDA 任务表述为生成问题(主题分割作为二元序列标注;关系识别作为多类分类;解析作为有向无环图)。
- 为每个任务设计两种提示范式:判别式(多选题风格)与生成式(直接生成)。
- 应用两种上下文学习策略:Vallina In-Context Learning (VICL) 和 Chain-of-Thought In-Context Learning (CoTICL)。
- 在每个任务的公开数据集上进行评估(主题分割:DialSeg_711、TIAGE、CNTD、ZYS;关系识别和解析:STAC、Molweni)。
- 对 LLM 输出进行后处理以适配评估格式并计算 Pk、Macro/F1、Micro F1、Link/F1 等。

实验结果
研究问题
- RQ1ChatGPT 在对话数据上的主题分割、话语关系识别和话语解析的表现如何?
- RQ2生成型提示在这些任务中的表现是否优于判别型提示?
- RQ3Chain-of-Thought In-Context Learning 是否提升了 ChatGPT 在复杂话语解析任务上的表现?
- RQ4ChatGPT 能否作为有用的标注者或助手来识别不合理的话语关系?
- RQ5在跨任务建模对话话语结构方面,ChatGPT 的局限性是什么?
主要发现
- 生成型提示通常优于判别型提示,在所有三类任务中均如此。
- 在若干数据集上,ChatGPT 的主题分割性能具有竞争力,在某些情况下接近最先进水平,但在复杂任务上仍有提升空间。
- 在话语关系识别和解析的表现低于主题分割,与监督基线存在显著差距。
- CoTICL 显著提升解析性能,凸显多步推理在复杂话语结构任务中的优势。
- ChatGPT 可以成为良好的主题标注者,并协助纠正不合理的话语关系,但在对话解析中难以完全捕捉话语结构。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。