QUICK REVIEW

[論文レビュー] MIDAS: A Dialog Act Annotation Scheme for Open Domain Human Machine Spoken Conversations

Dian Yu, Zhou Yu|arXiv (Cornell University)|Aug 27, 2019

Topic Modeling参考文献 18被引用数 25

ひとこと要約

本稿では、オープンドメインのヒューマン・マシン会話に特化した階層的でマルチラベルの会話行動アノテーションスキーム、MIDASを紹介する。既存のヒューマン・ヒューマン用スキームには限界があることを踏まえ、24,000発話のデータセットをMIDASでアノテートし、トランスファー学習に基づくマルチラベル会話行動分類器を訓練した。その結果、ASR出力を持つ現実世界のヒューマン・マシン対話において、先行手法を上回るF1スコア0.79を達成した。

ABSTRACT

Dialog act prediction is an essential language comprehension task for both dialog system building and discourse analysis. Previous dialog act schemes, such as SWBD-DAMSL, are designed for human-human conversations, in which conversation partners have perfect language understanding ability. In this paper, we design a dialog act annotation scheme, MIDAS (Machine Interaction Dialog Act Scheme), targeted on open-domain human-machine conversations. MIDAS is designed to assist machines which have limited ability to understand their human partners. MIDAS has a hierarchical structure and supports multi-label annotations. We collected and annotated a large open-domain human-machine spoken conversation dataset (consists of 24K utterances). To show the applicability of the scheme, we leverage transfer learning methods to train a multi-label dialog act prediction model and reach an F1 score of 0.79.

研究の動機と目的

ヒューマン・ヒューマンの会話とは顕著に異なる、ヒューマン・マシン会話に特化した会話行動アノテーションスキームの欠落を埋めるため。
オープンドメインのヒューマン・マシン対話における発話の複雑かつ多機能な性質を捉えるために、マルチラベル・階層的ラベリングを可能にするスキームを開発するため。
会話行動予測器のトレーニングおよび評価のため、提案スキームを用いて大規模かつ現実世界のアノテーションデータセットを構築するため。
特にASRエラー状態下でもユーザーの意図をよりよく理解できるようにすることで、会話システムのパフォーマンスを向上させるため。
研究の進展を促すために、オープンソースのアノテーションデータおよびトレーニング済みモデルを提供するため。

提案手法

命令形のリクエストやトピックのシフトといったヒューマン・マシン対話の特徴を最適化した、11の主要カテゴリと88のサブカテゴリを有する階層的でマルチラベルの会話行動アノテーションスキーム（MIDAS）を設計する。
ヒューマン・マシン間の社会的会話から24,000発話を収集し、アノテートする。インターアノテーター間一致性は高く（kappa = 0.94）を達成した。
MIDASでアノテートされたデータセット上で微調整されたBERT埋め込みを用いて、トランスファー学習に基づくマルチラベル会話行動分類モデルを訓練する。
F1スコアを用いてパフォーマンスを評価し、文脈あり／なしのバリアントおよび異なる文脈表現（テキスト vs. 会話行動ラベル）を比較する。
ドメイン内事前学習の影響をテストするため、同様の分布の未ラベル付きヒューマン・マシン会話データでBERTを微調整する。
ヒューマン・ヒューマン会話データ（SwDA）を用いたトランスファー学習の有効性を比較し、ドメインおよびラベリング分布の違いによるパフォーマンス低下を分析する。

実験結果

リサーチクエスチョン

RQ1ヒューマン・マシン会話に特化して設計された会話行動アノテーションスキームは、ヒューマン・ヒューマン向けに設計されたスキームと比較して、会話行動予測のパフォーマンスを向上させることができるか？
RQ2表面的なテキストおよび以前の会話行動の両方の文脈情報を組み込むことで、オープンドメインのヒューマン・マシン会話におけるマルチラベル会話行動分類にどのような影響を与えるか？
RQ3ドメイン内での未ラベル付きヒューマン・マシン会話データでBERTを微調整することで、事前学習済みBERT単体よりも会話行動予測のパフォーマンスがどの程度向上するか？
RQ4トランスファー学習の利点があるにもかかわらず、ヒューマン・ヒューマン会話データ（例：SwDA）で微調整しても、ヒューマン・マシンデータではパフォーマンスが向上しないのはなぜか？
RQ5会話行動予測における主な誤りパターンは何か。また、それらは文脈長や発話のセグメンテーションにどのように関係しているか？

主な発見

提案されたMIDASスキームは高いインターアノテーター間一致性（kappa = 0.94）を達成し、複雑なオープンドメイン環境下でも明確で実用的なアノテーションが可能であることが確認された。
ドメイン内データで微調整されたBERT埋め込みを用いたマルチラベル会話行動分類器は、F1スコア0.7940を達成し、ドメイン特化のない微調整なしのモデルを上回るパフォーマンスを示した。
直前の発話のテキストとその会話行動ラベルの両方を文脈として組み込むことで最高のパフォーマンス（F1 = 79.44%）が得られたが、テキストのみの文脈との差は統計的に有意ではなかった。
ヒューマン・ヒューマン会話データ（SwDA）で微調整してもパフォーマンスは向上せず、わずかにF1が低下した。これはドメインシフトとラベリングスキームの違い（単一ラベル対マルチラベル）によるものと推測される。
文脈が1ターン分に限定された状況では、「意見でない発話」と「一般の意見」を区別するのが特に困難であり、より長い文脈モデリングの必要性が示された。
誤分類の多くは、誤った発話セグメンテーションや意味のない発話に起因しており、現実世界のASRパイプラインにおいて、堅牢な前処理およびセグメンテーションの重要性が浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。