QUICK REVIEW

[論文レビュー] Multi-lingual Dialogue Act Recognition with Deep Learning Methods

Jiřı́ Martı́nek, Pavel Král|arXiv (Cornell University)|Apr 11, 2019

Speech and dialogue systems参考文献 26被引用数 4

ひとこと要約

本稿では、word2vec埋め込みを用いた2つの深層学習ベースの多言語対話行動（DA）認識手法を提案する。1つは全言語で訓練された統合的多言語モデルであり、もう1つはCCAを用いて意味空間を統合するクロスリンガルモデルである。多言語モデルはクロスリンガル手法を上回り、Bi-LSTMはVerbmobilコーパスで74.9%の正解率を達成し、単言語システムと同等の最先端の性能を示した。

ABSTRACT

This paper deals with multi-lingual dialogue act (DA) recognition. The proposed approaches are based on deep neural networks and use word2vec embeddings for word representation. Two multi-lingual models are proposed for this task. The first approach uses one general model trained on the embeddings from all available languages. The second method trains the model on a single pivot language and a linear transformation method is used to project other languages onto the pivot language. The popular convolutional neural network and LSTM architectures with different set-ups are used as classifiers. To the best of our knowledge this is the first attempt at multi-lingual DA recognition using neural networks. The multi-lingual models are validated experimentally on two languages from the Verbmobil corpus.

研究の動機と目的

ニューラルネットワークベースのNLPにおける多言語対話行動認識手法の不足を解消すること。
対話システムにおけるクロスリンガル転移学習を可能にすることで、人的アノテーション作業を削減すること。
word2vec埋め込みを用いた深層ニューラルネットワークの多言語DA認識への有効性を評価すること。
多言語学習とCCAベースの投影によるピボット言語転移を比較すること。
対話履歴の有無と異なるニューラルアーキテクチャがDA認識性能に与える影響を評価すること。

提案手法

全言語の対話行動アノテーションを統合して訓練された単一の多言語分類器を、共有のword2vec埋め込みを用いて訓練する。
ピボット言語戦略を採用し、1つの言語でのみモデルを訓練し、他の言語をCCAを用いてその意味空間に投影する。
2種類のニューラルアーキテクチャを採用：最大プーリングを伴うCNNと系列モデル用の双方向LSTM。
入力特徴としてword2vec埋め込みを用い、Verbmobilコーパスでのファインチューニング実験も実施する。
分類性能の向上を図るため、対話履歴を入力コンテキストとして組み込む。
英語およびドイツ語データのVerbmobilコーパスを用いて、正解率とF1スコアでモデルを評価する。

実験結果

リサーチクエスチョン

RQ1共有のword2vec埋め込みを用いて、多言語対話行動データに1つの深層ニューラルネットワークを効果的に訓練できるか？
RQ2CCAを用いて非ピボット言語をピボット言語の意味空間に投影することで、有効なクロスリンガル対話行動認識が可能になるか？
RQ3異なるニューラルアーキテクチャ（CNN対Bi-LSTM）は、多言語DA認識タスクでどのように性能を発揮するか？
RQ4対話履歴を組み込むことで、どの程度DA認識の正解率が向上するか？
RQ5事前学習済みword2vec埋め込みのファインチューニングは、Verbmobilコーパスにおける多言語DA認識に有益か？

主な発見

多言語モデルは、対話履歴を含むBi-LSTMを用いて74.9%のF1スコアを達成し、クロスリンガル手法を上回った。
CCAによる投影に基づくクロスリンガルモデルは、英語からドイツ語のDAを予測する際、わずか34.0%のF1スコアにとどまり、転移性が限定的であることが示された。
Bi-LSTMアーキテクチャは、すべての設定でCNNの両方の構成を上回り、最高のF1スコア74.9%を達成した。
対話履歴の組み込みは、ほぼすべての設定で性能向上をもたらし、特にBi-LSTMモデルで履歴を含めた場合に最も優れた結果が得られた。
word2vec埋め込みのファインチューニングは性能向上をもたらさず、このタスクでは事前学習済み埋め込みがすでに最適であることが示唆された。
提案された多言語モデルは、単言語システムと同等の最先端の性能を達成し、Verbmobilテストセットで74.9%のF1スコアを記録した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。