Skip to main content
QUICK REVIEW

[논문 리뷰] Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue: An Empirical Study

Yaxin Fan, Feng Jiang|arXiv (Cornell University)|2023. 05. 15.
Topic Modeling인용 수 12
한 줄 요약

본 논문은 ChatGPT를 세 가지 대화 담화 분석 과제(주제 구분, 담화 관계 인식, 담화 파싱)에서 판별적 프롬프트와 생성적 프롬프트를 사용하여 평가하고, Chain-of-Thought In-Context Learning (CoTICL)이 복잡한 과제에서 성능을 향상시킨다고 제시한다.

ABSTRACT

Large language models, like ChatGPT, have shown remarkable capability in many downstream tasks, yet their ability to understand discourse structures of dialogues remains less explored, where it requires higher level capabilities of understanding and reasoning. In this paper, we aim to systematically inspect ChatGPT's performance in two discourse analysis tasks: topic segmentation and discourse parsing, focusing on its deep semantic understanding of linear and hierarchical discourse structures underlying dialogue. To instruct ChatGPT to complete these tasks, we initially craft a prompt template consisting of the task description, output format, and structured input. Then, we conduct experiments on four popular topic segmentation datasets and two discourse parsing datasets. The experimental results showcase that ChatGPT demonstrates proficiency in identifying topic structures in general-domain conversations yet struggles considerably in specific-domain conversations. We also found that ChatGPT hardly understands rhetorical structures that are more complex than topic structures. Our deeper investigation indicates that ChatGPT can give more reasonable topic structures than human annotations but only linearly parses the hierarchical rhetorical structures. In addition, we delve into the impact of in-context learning (e.g., chain-of-thought) on ChatGPT and conduct the ablation study on various prompt components, which can provide a research foundation for future work. The code is available at \url{https://github.com/yxfanSuda/GPTforDDA}.

연구 동기 및 목표

  • 대화 주제 구분, 담화 관계 인식, 담화 파싱에서 ChatGPT의 능력을 평가한다.
  • 각 과제에 대해 판별적 프롬프트와 생성적 프롬프트 전략을 비교한다.
  • In-context 학습 접근법(VICL 및 CoTICL)과 그것들의 성능 영향력을 탐구한다.
  • 담화 주석자이자 파서로서의 ChatGPT의 강점과 한계를 분석한다.
  • 대화 담화 분석을 위해 LLM을 활용하는 향후 연구에 대한 가이드를 제공한다.

제안 방법

  • 세 가지 DDA 과제를 생성 문제로 형식화한다(주제 구분은 이진 시퀀스 태깅; 담화 관계 인식은 다중 클래스 분류; 파싱은 방향 비순환 그래프).
  • 각 과제에 대해 두 가지 프롬프트 패러다임을 설계한다: 판별적(객관식 스타일)과 생성적(직접 생성).
  • 두 가지 In-Context 학습 전략을 적용한다: Vallina In-Context Learning (VICL)과 Chain-of-Thought In-Context Learning (CoTICL).
  • 각 과제에 대해 확립된 데이터셋으로 평가한다(주제 구분: DialSeg_711, TIAGE, CNTD, ZYS; 관계 인식 및 파싱: STAC, Molweni).
  • 평가 형식에 맞게 LLM 출력물을 후처리하고 Pk, Macro/Micro F1, Link/F1 등을 계산한다.
Figure 1: A dialogue from the STAC (Asher et al., 2016 ) dataset, consisting of seven utterances $U_{1}$ - $U_{7}$ and three speakers Cat , wil , and Thomas . Dialogue topic segmentation aims to divide the dialogue text into several topical pieces, which can be treated as a binary sequence tagging p
Figure 1: A dialogue from the STAC (Asher et al., 2016 ) dataset, consisting of seven utterances $U_{1}$ - $U_{7}$ and three speakers Cat , wil , and Thomas . Dialogue topic segmentation aims to divide the dialogue text into several topical pieces, which can be treated as a binary sequence tagging p

실험 결과

연구 질문

  • RQ1대화 데이터에서 ChatGPT가 주제 구분, 담화 관계 인식 및 담화 파싱을 어떻게 수행하는가?
  • RQ2이러한 과제에서 생성적 프롬프트가 판별적 프롬프트보다 뛰어난가?
  • RQ3Chain-of-Thought In-Context Learning이 복잡한 담화 파싱 과제에서 ChatGPT의 성능을 향상시키는가?
  • RQ4ChatGPT가 불합리한 담화 관계를 식별하는 데 유용한 주석자나 보조자로 작용할 수 있는가?
  • RQ5과제 전반에 걸친 대화 담화 구조 모델링에서 ChatGPT의 한계는 무엇인가?

주요 결과

  • 생성적 프롬프트가 세 가지 과제 모두에서 일반적으로 판별적 프롬프트보다 우수하다.
  • ChatGPT는 여러 데이터셋에서 주제 구분 수행이 경쟁력 있으며, 일부 경우에는 최신 연구에 근접하지만 복잡한 과제에서 개선 여지가 보인다.
  • 담화 관계 인식 및 파싱의 성능은 주제 구분보다 낮고, 감독 학습 기반 기준 모델과의 차이가 크다.
  • CoTICL은 파싱 성능을 크게 향상시키며, 복잡한 담화 구조 과제에 대해 다단계 추론의 이점을 강조한다.
  • ChatGPT는 좋은 주제 주석자가 되며 불합리한 담화 관계를 교정하는 데 도움을 줄 수 있지만, 파싱에서 담화 구조를 완전히 포착하는 데에는 어려움을 겪는다.
Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue: An Empirical Study

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.