Skip to main content
QUICK REVIEW

[論文レビュー] SAD: A Large-Scale Strategic Argumentative Dialogue Dataset

Yongkang Liu, Jiayang Yu|arXiv (Cornell University)|Jan 12, 2026
Topic Modeling被引用数 0
ひとこと要約

SADは、392,822の例(総 utterances 約722k)を含み、立場と5つの議論戦略で注釈付けされた、戦略を意識した大規模な多ターン型議論対話データセットであり、戦略条件付き生成を研究しモデルの説得力を評価するために用いられる。

ABSTRACT

Argumentation generation has attracted substantial research interest due to its central role in human reasoning and decision-making. However, most existing argumentative corpora focus on non-interactive, single-turn settings, either generating arguments from a given topic or refuting an existing argument. In practice, however, argumentation is often realized as multi-turn dialogue, where speakers defend their stances and employ diverse argumentative strategies to strengthen persuasiveness. To support deeper modeling of argumentation dialogue, we present the first large-scale extbf{S}trategic extbf{A}rgumentative extbf{D}ialogue dataset, SAD, consisting of 392,822 examples. Grounded in argumentation theories, we annotate each utterance with five strategy types, allowing multiple strategies per utterance. Unlike prior datasets, SAD requires models to generate contextually appropriate arguments conditioned on the dialogue history, a specified stance on the topic, and targeted argumentation strategies. We further benchmark a range of pretrained generative models on SAD and present in-depth analysis of strategy usage patterns in argumentation.

研究の動機と目的

  • 実世界の対話的な議論研究を、単一ターンの設定を超えて動機づける。
  • 立場と5つの戦略で注釈付けされた大規模で高品質な多ターン型議論対話データセットを作成する。
  • ChangeMyViewの理論と実世界データに基づき、戦略条件付き生成を可能にする。
  • 戦略条件付き生成タスクを提案する:P(A | History, Stance, Topic, Strategy)。
  • 流暢さ、結束、話題性、説得力を評価する自動評価と人間評価を開発し、LLMをベンチマークする。

提案手法

  • ChangeMyView (CMV)の議論から大規模データセット SADを構築し、392,822の対話例と722,812の発話を、20,619トピックに跨って取得する。
  • 各発話を立場(賛成か反対か)に注釈付けする。多数決投票(5名の作業者)による注釈(Fleiss’ κ = 0.78)。
  • 各発話に5つの戦略タイプ(質問、因果、例、類推、発言)を注釈付けし、発話ごとに複数ラベルの可能性を認める。
  • 戦略注釈の品質管理を実施し、事前注釈の練習、専門家の改訂、ランダムサンプリングによる一貫性チェックを行い、少なくとも1名のアノテーターと97.2%以上の合意、少なくとも2名との合意で91.0%以上を達成。
  • 戦略条件付き生成タスクを定式化・評価する:P(A | History, Stance, Topic, Strategy)。
  • Like数に基づく自動説得力評価指標を開発し、流暢さ、結束、関連性、説得力の観点で人間評価を実施する。

実験結果

リサーチクエスチョン

  • RQ1戦略注釈は、多ターン型の議論生成の品質と特徴にどのような影響を与えるのか。
  • RQ2明示的な議論戦略を取り入れると、生成の流暢さ、結束、話題性、説得力がモデル全体で向上するのか。
  • RQ3オープンソース modelとクローズドソース modelは戦略情報を活用する際にどう異なるのか、微調整と最適化手法(SFT vs. DPO)が性能に与える影響は。
  • RQ4SADの多ターン討論全体における戦略の使用と遷移の経験的パターンは何か。

主な発見

  • SADは392,822の対話例と722,812の発話、20,619トピックを含み、規模と話題の多様性を示す。
  • 各発話には5つの戦略(質問、因果、例、類推、発言)が注釈付けされ、複数戦略の可能性があり、注釈の信頼性も高いと報告されている。
  • 明示的な戦略指針は、関連性、結束、流暢さの観点で生成品質を複数のモデル・評価設定で向上させる。
  • 戦略を用いた生成は関連性と説得力の向上をもたらすことを人間評価が示し、戦略手掛かりと微調整を組み合わせた場合に特に大きな改善が見られる。
  • GPT-4.1ベースの説得力評価指標を使った自動評価は、戦略が使われると多次元的な議論品質の一貫した向上を示し、微調整(DPO)は説得力と結束性の高い応答でSFTより一般的に優れている。
  • オープンソースモデルは戦略による説得力の改善が控えめである一方、クローズドソースモデルはより大きな改善を示し、議論戦略の活用に差があることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。