QUICK REVIEW

[論文レビュー] Semantically Conditioned Dialog Response Generation via Hierarchical Disentangled Self-Attention

Wenhu Chen, Jianshu Chen|arXiv (Cornell University)|May 30, 2019

Topic Modeling参考文献 24被引用数 22

ひとこと要約

本稿では、対話行動を階層的マルチレイヤー・グラフ内のルートからリーフへのパスとしてモデル化することで、スケーラブルで意味的に制御可能な応答生成を実現する階層的分離自己注意ネットワーク（HDSA）を提案する。対話行動グラフ内の特定のノードに対応するように注意ヘッドを分離することで、HDSAはMultiWOZデータセットにおいて自動評価および人的評価指標で顕著な向上を達成し、ベースラインと比較して制御性と一般化性能が向上していることを示している。

ABSTRACT

Semantically controlled neural response generation on limited-domain has achieved great performance. However, moving towards multi-domain large-scale scenarios are shown to be difficult because the possible combinations of semantic inputs grow exponentially with the number of domains. To alleviate such scalability issue, we exploit the structure of dialog acts to build a multi-layer hierarchical graph, where each act is represented as a root-to-leaf route on the graph. Then, we incorporate such graph structure prior as an inductive bias to build a hierarchical disentangled self-attention network, where we disentangle attention heads to model designated nodes on the dialog act graph. By activating different (disentangled) heads at each layer, combinatorially many dialog act semantics can be modeled to control the neural response generation. On the large-scale Multi-Domain-WOZ dataset, our model can yield a significant improvement over the baselines on various automatic and human evaluation metrics.

研究の動機と目的

対話行動の組み合わせの組み合わせ的爆発がモデルの一般化を妨げる多ドメイン対話応答生成におけるスケーラビリティ問題に対処すること。
対話行動同士の構造的関係を活用することで、低リソースまたは未学習の対話行動組み合わせにおける一般化を向上させ、サンプル複雑性を低減すること。
対話行動構造を明示的にインダクティブバイアスとしてエンコードする神経ネットワークアーキテクチャを設計し、より良い意味的制御性と解釈可能性を実現すること。
MultiWOZのような大規模・多ドメイン対話データセットで強力な性能を発揮するとともに、生成応答の制御性と一貫性を維持すること。

提案手法

対話行動をドメイン、アクション、スロットに対応するノードとして表すルートからリーフへのパスを持つ、マルチレイヤーの階層的グラフを構築する。
HDSAネットワークを設計し、各注意ヘッドを対話行動グラフ内の特定のノードに束縛する。
学習および推論時、与えられた対話行動のパスに対応する注意ヘッドのみを有効化することで、正確な意味的制御を実現する。
各レイヤーでスイッチ機構を導入し、対話行動に応じてヘッドを動的に有効化することで、関係のない行動同士でパラメータを共有せずに組み合わせ的制御を可能にする。
トランスフォーマー・アーキテクチャにグラフ構造をインダクティブバイアスとして組み込み、対話行動の従来のベクトル化入力埋め込みを置き換える。
対話行動パスがネットワーク内の注意フローを誘導するように、応答生成におけるクロスエントロピー損失を用いてモデルをエンド・ツー・エンドで学習する。

実験結果

リサーチクエスチョン

RQ1対話行動の階層的グラフ表現は、多ドメイン対話システムにおけるサンプル複雑性の低減と一般化の向上に寄与するか？
RQ2分離された注意ヘッドは、指数的パラメータ増加を伴わずに、複雑な構造的対話行動意味を効果的にモデル化できるか？
RQ3対話行動構造をインダクティブバイアスとして組み込むことで、標準的なシーケンス・ツー・シーケンスモデルと比較して、応答の一貫性と制御性が向上するか？
RQ4提案手法は、低リソース環境における未学習の対話行動組み合わせへの一般化にどの程度成功するか？

主な発見

HDSAは、MultiWOZデータセットにおいて応答の一貫性について55.4％の人的好み率を達成し、SC-LSTM（32.8％）およびTransformer-in（49.8％）を顕著に上回った。
一貫性に関する人的評価で44.8％の好み率を達成し、SC-LSTMの36.1％と比較して顕著な向上を示し、対話履歴との整合性が高まったことを示している。
自動評価指標においても、HDSAはBLEU、ROUGE、FIDのすべての指標でベースラインを上回った。特に、3ショットの少サンプル設定で顕著な向上が観察された。
階層的グラフ表現により、対話行動表現の指数的コストがほぼ線形にまで低減され、複雑な行動組み合わせのスケーラブルなモデリングが可能になった。
人的評価により、HDSAの応答が与えられた対話行動とより意味的に整合していることが確認され、制御性評価で90％の一致率を達成した。
モデルは強力な一般化性能を示し、対話行動グラフからの構造的インダクティブバイアスのおかげで、未学習のテストケースでも性能が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。