[논문 리뷰] SAD: A Large-Scale Strategic Argumentative Dialogue Dataset
SAD는 392,822개의 예시(총 722k 발화 이상)로 구성된 대규모의 전략 인식 다회 차 주장 대화 데이터셋으로, 입장과 다섯 가지 주장 전략으로 주석되며, 전략 조건에 따른 생성 연구 및 모델 설득력 평가에 사용된다.
Argumentation generation has attracted substantial research interest due to its central role in human reasoning and decision-making. However, most existing argumentative corpora focus on non-interactive, single-turn settings, either generating arguments from a given topic or refuting an existing argument. In practice, however, argumentation is often realized as multi-turn dialogue, where speakers defend their stances and employ diverse argumentative strategies to strengthen persuasiveness. To support deeper modeling of argumentation dialogue, we present the first large-scale extbf{S}trategic extbf{A}rgumentative extbf{D}ialogue dataset, SAD, consisting of 392,822 examples. Grounded in argumentation theories, we annotate each utterance with five strategy types, allowing multiple strategies per utterance. Unlike prior datasets, SAD requires models to generate contextually appropriate arguments conditioned on the dialogue history, a specified stance on the topic, and targeted argumentation strategies. We further benchmark a range of pretrained generative models on SAD and present in-depth analysis of strategy usage patterns in argumentation.
연구 동기 및 목표
- 단일 턴 설정을 넘어선 실제 세계의 상호 작용적 논증 연구를 촉진한다.
- 입장을 포함한 다섯 가지 전략으로 주석된 다회 차 주장 대화의 크고 질 높은 데이터세트를 만든다.
- 데이터세트를 이론과 ChangeMyView의 실제 데이터에 근거시켜 전략-조건화 생성을 가능하게 한다.
- 전략 조건화 생성 태스크를 제안한다: P(A | History, Stance, Topic, Strategy).
- 유창성, 일관성, 주제 적합성, 설득력을 평가하기 위한 자동 및 사람 평가를 개발하고 LLM을 벤치마크한다.
제안 방법
- CMV(ChangeMyView) 토론에서 392,822 대화 예시 및 722,812 발화를 포함하고 20,619 주제에 걸친 SAD 대규모 데이터셋을 구성한다.
- 각 발화를 다섯 작업자의 다수결로 입장(지지 대 반대)으로 주석한다(Fleiss’ kappa = 0.78).
- 발화에 다섯 가지 전략 유형(질문, 인과관계, 예시, 비유, 진술)으로 주석하되 한 발화에 복수 레이블 가능.
- 전략 주석에 대한 품질 관리 구현: 주석 전 연습, 전문가 수정, 무작위 샘플 일치 검사(적어도 한 명의 주석자와의 일치도 >97.2%, 적어도 두 명과의 일치도 >91.0%).
- 전략 조건화 생성 태스크 P(A | History, Stance, Topic, Strategy)을 공식화하고 평가한다.
- Like 수를 기반으로 한 자동 설득력 평가기를 개발하고 유창성, 일관성, 관련성, 설득력에 대해 인간 평가를 수행한다.
실험 결과
연구 질문
- RQ1전략 주석이 다회 차 주장 생성의 질과 특성에 어떤 영향을 미치는가?
- RQ2명시적 주장 전략을 포함시키면 생성의 유창성, 일관성, 주제 적합성 및 설득력이 모델 전반에 걸쳐 향상되는가?
- RQ3오픈 소스 모델과 폐쇄형 모델이 전략 정보를 활용하는 방식에 어떤 차이가 있으며, 미세조정 및 최적화 전략(SFT vs. DPO)이 성능에 미치는 영향은 무엇인가?
- RQ4SAD에서 다회 차 논쟁 전체에서 전략 사용 및 전환의 실증적 패턴은 무엇인가?
주요 결과
- SAD는 392,822개의 대화 예시와 722,812개의 발화를 20,619개의 주제로 포함하고 있어 상당한 규모와 주제 다양성을 시사한다.
- 발화당 다섯 가지 전략(질문, 인과관계, 예시, 비유, 진술)이 주석되며, 발화당 다중 전략이 가능하고 주석 신뢰도가 높게 보고된다.
- 명시적 전략 지도가 생성 품질(관련성, 일관성, 유창성)을 여러 모델 및 평가 설정에서 향상시킨다.
- 전략 정보를 반영한 생성은 관련성과 설득력에서 이점을 보여주며, 전략 단서 및 미세 조정으로 더 큰 개선이 나타난다.
- GPT-4.1 기반의 설득력 평가기를 사용한 자동 평가에서 전략 활용 시 다차원적 주장 품질이 일관되게 향상되며, 미세 조정(DPO)이 일반적으로 SFT보다 설득력과 일관성 있는 응답에서 우수하다.
- 오픈 소스 모델은 전략에 따른 설득력 향상을 소폭 얻는 반면, 폐쇄형 모델은 더 큰 이득을 보이며 주장 전략 활용의 차이를 드러낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.