QUICK REVIEW

[論文レビュー] Alternating Recurrent Dialog Model with Large-scale Pre-trained Language Models

Qingyang Wu, Yichi Zhang|arXiv (Cornell University)|Oct 9, 2019

Topic Modeling参考文献 18被引用数 32

ひとこと要約

ARDM はユーザーとシステムの発話のために 2 つの独立した事前学習言語モデルを用い、交互に、記憶を再帰的に処理するフレームワークで、Belief-state や対話行為の明示的な注釈なしでも CamRest676、MultiWOZ、PersuasionForGood データセット全体で高い成果を達成します。

ABSTRACT

Existing dialog system models require extensive human annotations and are difficult to generalize to different tasks. The recent success of large pre-trained language models such as BERT and GPT-2 (Devlin et al., 2019; Radford et al., 2019) have suggested the effectiveness of incorporating language priors in down-stream NLP tasks. However, how much pre-trained language models can help dialog response generation is still under exploration. In this paper, we propose a simple, general, and effective framework: Alternating Roles Dialog Model (ARDM). ARDM models each speaker separately and takes advantage of the large pre-trained language model. It requires no supervision from human annotations such as belief states or dialog acts to achieve effective conversations. ARDM outperforms or is on par with state-of-the-art methods on two popular task-oriented dialog datasets: CamRest676 and MultiWOZ. Moreover, we can generalize ARDM to more challenging, non-collaborative tasks such as persuasion. In persuasion tasks, ARDM is capable of generating human-like responses to persuade people to donate to a charity.

研究の動機と目的

タスク指向対話システムにおける注釈負担の削減を動機づける。
信念状態や対話行為なしで対話行動を学習するために大規模な事前学習言語モデルを活用する。
ユーザーとシステムの発話をモデル化するための記憶に基づく交互アーキテクチャを提案する。
説得を含む複数の対話タスクで有効性を示す。

提案手法

ユーザー発話とシステム発話のための 2 つの別個の事前学習済み言語モデルをモデル化し、履歴に条件づけて次のトークンを生成するように訓練する。
歴史的隠れ状態を再利用して長距離依存関係を可能にする記憶再帰機構を導入する（Transformer-XL スタイル）。
GPT-2 small で初期化し、標準的ハイパーパラメータと AdamW でタスクデータセットにファインチューニングし、トリガーベースのプロンプティングを用いてゼロショット対話生成を行う。
核サンプリングと温度制御デコードを使用し、動的対話フィルタリング法で効率的バッチデコードを実現する。
信念状態や対話行為の監督には依存しない；データベース照会での実体追跡のために、単純な非ニューラル信念抽出器を任意で用いる。

実験結果

リサーチクエスチョン

RQ1交互的なスピーカー固有言語モデルと記憶再帰が、注釈付き信念状態や対話行為なしで対話応答生成を向上させるか。
RQ2ARDM は従来のタスク指向データセット（CamRest676、MultiWOZ）で注釈付きベースラインと比較してどう計測されるか。
RQ3ARDM は低リソース環境で堅牢かつ説得のような非協働タスクに拡張可能か。
RQ4説得的対話生成における人間評価への影響はどうか。
RQ5長い対話におけるデコードと記憶管理の実用的な考慮点は何か。

主な発見

ARDM は信念状態や対話行為を監修とせずに、 CamRest676 と MultiWOZ で最先端手法を上回るか同等の成績を示す。
ARDM は学習データを減らしても高いパフォーマンスを維持し、低リソース条件下で一部の監視付きベースラインを上回る。
MultiWOZ では対話行為の注釈なしでいくつかのベースラインを上回り、 act-監修モデルの HDSA などと競合可能。
PersuasionForGood では ARDM が TransferTransfo より混乱度が低く、人間の好みも強化され、寄付態度も高い。
このアプローチは寄付などの非協働タスクへの Generalization を示し、交互発話者モデルの広い適用性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。