QUICK REVIEW

[論文レビュー] A Machine Learning Approach to the Classification of Dialogue Utterances

Toine Andernach|ArXiv.org|Jul 16, 1996

Speech and dialogue systems被引用数 21

ひとこと要約

本稿では、コーパスから抽出した表面的言語的手がかり（キュー・パターン）を用いて、自動的に会話発話の分類を行う機械学習的手法を提示する。教師なし学習（AutoClass）を用いて会話行動クラスを発見し、教師あり学習（ルール誘導）を用いて解釈可能な分類ルールを生成することで、劇場予約会話コーパスにおいて高い精度（最大100％）を達成した。これは、人為的なラベル付き分類体系のバイアスに依存せずに、客観的かつデータ駆動型の会話行動分類が可能であることを示している。

ABSTRACT

The purpose of this paper is to present a method for automatic classification of dialogue utterances and the results of applying that method to a corpus. Superficial features of a set of training utterances (which we will call cues) are taken as the basis for finding relevant utterance classes and for extracting rules for assigning these classes to new utterances. Each cue is assumed to partially contribute to the communicative function of an utterance. Instead of relying on subjective judgments for the tasks of finding classes and rules, we opt for using machine learning techniques to guarantee objectivity.

研究の動機と目的

主観的な人間の判断や事前に定義された分類体系に依存せずに、客観的かつ自動的に会話発話を分類する手法を開発すること。
ドメイン固有のコーパスにおいて、会話行動と相関する表面的言語的特徴（キュー）を特定すること。
教師なし学習を用いて、訓練データから意味のある会話行動クラスを発見すること。
教師あり学習を用いて、発見されたクラスから解釈可能な分類ルールを生成すること。
得られたルールセットの性能を未学習のテストデータに対して評価すること。

提案手法

発話タイプ、wh語の有無、主語タイプ、キュー語、動詞タイプなどの表面的言語的特徴から、キュー・パターンが構築される。
特徴の類似性に基づいて、AutoClassアルゴリズムを用いてキュー・パターンを会話行動クラスにクラスタリングする教師なし分類が実施される。
発見されたクラスに対して、教師ありルール誘導を適用し、キュー・パターンから行動クラスへのマッピングを実現する分類ルールの集合が生成される。
精度指標を用いてルールセットが評価され、各クラスの正確性は、そのクラスに正しく予測されたインスタンス数をそのクラスの総インスタンス数で割った比として計算される。
訓練・テスト・専門家フィードバックのサイクルを繰り返し、キュー選択と分類の精度を段階的に改善する。
今後の拡張として、クラスの系列のn-gram解析を用いた文脈に配慮したモデルや、C4.5やKohonenマップなどの代替アルゴリズムの検討が予定されている。

実験結果

リサーチクエスチョン

RQ1教師なし機械学習を用いて、人為的に定義された分類体系に依存せずに、コーパスから会話行動クラスを自動的に発見できるか？
RQ2表面的言語的特徴（キュー・パターン）の集合は、どの程度会話行動クラスを予測できるか？
RQ3教師あり学習を用いて、教師なし学習で発見されたクラスから、正確で解釈可能なルールを生成できるか？
RQ4局所的文脈（例：直前の発話のクラス）の組み込みが、分類性能をどの程度向上させるか？
RQ5ルールベースのシステムの性能は、コーパス内の異なる会話行動クラスにおいてどのように変動するか？

主な発見

AutoClassを用いた教師なし分類により、会話の機能的違いを直感的に反映する解釈可能な会話行動クラスが効果的に生成された。
教師ありルール誘導プロセスにより、高い精度を達成するルールセットが得られ、テストセットにおける個々のクラスの正確性は90.7％から100％の範囲にのっていた。
クラス0（単純な名詞句）は99.3％の最高精度を記録した。一方、クラス2（yes/no質問）とクラス6（直接的な命令）は100％の精度を達成した。
本手法は多様な会話行動に対して頑健であった。複雑さが高いためにやや困難であったが、クラス4（wh質問）でも90.7％の正確性を達成した。
教師なしクラスタリングと教師ありルール生成の組み合わせにより、会話行動分類において客観性と解釈可能性の両立が達成された。
訓練・テストの反復サイクルは、キュー選択の最適化と分類性能の向上に効果的であることが実証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。