QUICK REVIEW

[論文レビュー] DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset

Yanran Li, Hui Su|arXiv (Cornell University)|Oct 11, 2017

Topic Modeling参考文献 24被引用数 667

ひとこと要約

DailyDialogは、日常生活の対話を高品質に人手で作成したマルチターン対話データセットで、対話行為（Inform、Questions、Directives、Commissive）と感情（七つのカテゴリ）の手動注釈を備えています。約13kの対話（各約8ターン）を含み、検索と生成モデルのベースライン評価を提供します。

ABSTRACT

We develop a high-quality multi-turn dialog dataset, DailyDialog, which is intriguing in several aspects. The language is human-written and less noisy. The dialogues in the dataset reflect our daily communication way and cover various topics about our daily life. We also manually label the developed dataset with communication intention and emotion information. Then, we evaluate existing approaches on DailyDialog dataset and hope it benefit the research field of dialog systems.

研究の動機と目的

日常生活の会話を反映した高品質で手動ラベル付けされたマルチターン対話データセットを提供する。
発話に対話行為（Inform、Questions、Directives、Commissive）と七つの感情カテゴリを注釈する。
検索と生成の両パラダイムに対する対話システム研究を促進するためのベースライン評価を提供する。
日常生活の独自パターンと感情豊かな内容を強調し、感情認識を取り入れた対話モデリングを支援する。

提案手法

日常生活の文脈から英語の対話を収集し、形式的で人間が書いた言語を保証する。
綴りの自動修正とデータの重複排除を実施し、二者間対話（発話者二人）にフィルタリングする。
各発話を Amanova et al. (2016) に従い四つの対話行為と七つの感情（Big Six plus Other）で手動ラベル付けする。
多数決とディスカッションを通じてアノテータ間の一致度を評価する（78.9%）。
DailyDialogに対する検索型および生成型対話システムのベースライン評価を実施する。
OpenSubtitlesをドメイン遠隔データとして事前学習効果を比較する。

実験結果

リサーチクエスチョン

RQ1日常生活のマルチターン対話の特徴は、話題の多様性、対話フロー、感情、注釈品質の観点でどうか。
RQ2既存の検索型および生成型対話モデルは、手動ラベル付きの日常対話データセットでどう性能を示すか。
RQ3対話行為と感情の注釈は、DailyDialogでの検索/ランキングと生成品質を改善するか。
RQ4日常会話における対話フローのパターン（例：二ターン、マルチターン）はどういったものがあり、単純なQ/Aを超えるパターンはどれくらい一般的か。

主な発見

Model	Epoch	Test Loss	PPL	BLEU-1	BLEU-2	BLEU-3	BLEU-4
Seq2Seq	30	4.024	55.94	0.352	0.146	0.017	0.006
Attn-Seq2Seq	60	4.036	56.59	0.335	0.134	0.013	0.006
HRED	44	4.082	59.24	0.396	0.174	0.019	0.009
L+Seq2Seq	21	3.911	49.96	0.379	0.156	0.018	0.006
L+Attn-Seq2Seq	37	3.913	50.03	0.464	0.220	0.016	0.009
L+HRED	27	3.990	54.05	0.431	0.193	0.016	0.009
Pre+Seq2Seq	18	3.556	35.01	0.312	0.120	0.0136	0.005
Pre+Attn-Seq2Seq	15	3.567	35.42	0.354	0.136	0.013	0.004
Pre+HRED	10	3.628	37.65	0.153	0.026	0.001	0.000

データセットには13,118の対話が含まれ、平均約7.9ターン、発話あたり約14.6トークン。
DailyDialogの話題は十カテゴリをカバーし、Relationship、Ordinary Life、Workが最も普及している。
発話は四つの対話行為クラス（Inform、Questions、Directives、Commissive）と七つの感情カテゴリでラベル付けされ、アノテータ間の一致は78.9%であった。
著者は二つの顕著なマルチターンパターンを観察した：（i）話者が質問に答えた後、別の質問をする（Pattern 1、18.3%）、および（ii）提案者のアイデアが次の提案を促す（Pattern 2、9.2%）。
感情ラベルは豊かな情動を示し、幸福が最大のカテゴリであり、Otherに分類される割合が大きい（83.10%）。
ベースラインの結果は、注意機構を用いた生成と階層モデルが、従来のSeq2Seqに対してBLEUと困惑度で概して優れている一方、OpenSubtitlesでの事前学習はドメイン不一致によりドメイン固有の性能を低下させる可能性がある。
検索ベースの手法は意図と感情を考慮したリランキングを用いることで、BLEUスコアをやや改善し、感情–意図の整合性を適切に維持できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。