[論文レビュー] Alternating Recurrent Dialog Model with Large-scale Pre-trained Language Models
ARDM は ユーザーと システム の 発話 の ために 2 つ の 独立 した 事前学習 言語モデル を 用い、交互 に、記憶 を 再帰的 に 処理 する フレームワーク で、Belief-state や 対話行為 の 明示的 な 注釈 なし でも CamRest676、MultiWOZ、PersuasionForGood データセット 全体 で 高い 成果 を 達成 します。
Existing dialog system models require extensive human annotations and are difficult to generalize to different tasks. The recent success of large pre-trained language models such as BERT and GPT-2 (Devlin et al., 2019; Radford et al., 2019) have suggested the effectiveness of incorporating language priors in down-stream NLP tasks. However, how much pre-trained language models can help dialog response generation is still under exploration. In this paper, we propose a simple, general, and effective framework: Alternating Roles Dialog Model (ARDM). ARDM models each speaker separately and takes advantage of the large pre-trained language model. It requires no supervision from human annotations such as belief states or dialog acts to achieve effective conversations. ARDM outperforms or is on par with state-of-the-art methods on two popular task-oriented dialog datasets: CamRest676 and MultiWOZ. Moreover, we can generalize ARDM to more challenging, non-collaborative tasks such as persuasion. In persuasion tasks, ARDM is capable of generating human-like responses to persuade people to donate to a charity.
研究の動機と目的
- タスク指向対話システムにおける注釈負担の削減を動機づける。
- 信念状態 や 対話行為 なし で 対話行動 を 学習 する ため に 大規模な 事前学習 言語モデル を 活用する。
- ユーザー と システム の 発話 を モデル化 するため の 記憶 に 基づく 交互 アーキテクチャ を 提案 する。
- 説得 を 含む 複数 の 対話タスク で 有効性 を 示す。
提案手法
- ユーザー発話 と システム発話 の ため の 2 つ の 別個 の 事前学習済み 言語モデル を モデル化 し、履歴 に 条件づけて 次 の トークン を 生成 する ように 訓練 する。
- 歴史 的 隠れ 状態 を 再利用 して 長距離 依存 関係 を 可能 に する 記憶 再帰 機構 を 導入 する(Transformer-XL スタイル)。
- GPT-2 small で 初期化 し、 標準 的 ハイパーパラメータ と AdamW で タスクデータセット に ファインチューニング し、 トリガー ベース の プロンプティング を 用いて ゼロショット 対話生成 を 行う。
- 核サンプリング と 温度 制御 デコード を 使用 し、 動的 対話 フィルタリング 法 で 効率 的 バッチ デコード を 実現 する。
- 信念状態 や 対話行為 の 監督 には 依存 しない; データベース 照会 で の 実体 追跡 の ため に、 単純 な 非ニューラル 信念 抽出器 を 任意 で 用いる。
実験結果
リサーチクエスチョン
- RQ1交互 的 な スピーカー 固有 言語モデル と 記憶 再帰 が、 注釈 付き 信念状態 や 対話行為 なし で 対話 応答 生成 を 向上 させる か。
- RQ2ARDM は 従来 の タスク指向データセット(CamRest676、MultiWOZ) で 注釈付き ベースライン と 比較 して どう 計測 されるか。
- RQ3ARDM は 低リソース 環境 で 堅牢 かつ 説得 の ような 非協働 タスク に 拡張 可能 か。
- RQ4説得 的 対話生成 における 人間 評価 への 影響 は どう か。
- RQ5長い 対話 における デコード と 記憶 管理 の 実用 的 な 考慮点 は 何 か。
主な発見
- ARDM は 信念状態 や 対話行為 を 監修 と せず に、 CamRest676 と MultiWOZ で 最先端 手法 を 上回る か 同等 の 成績 を 示す。
- ARDM は 学習データ を 減らして も 高い パフォーマンス を 維持 し、 低リソース 条件 下 で 一部 の 監視付き ベースライン を 上回る。
- MultiWOZ では 対話 行為 の 注釈 なし で いくつか の ベースライン を 上回り、 act-監修 モデル の HDSA など と 競合 可能。
- PersuasionForGood で は ARDM が TransferTransfo より 混乱度 が 低く、人間 の 好み も 強化 され、 寄付 態度 も 高い。
- この アプローチ は 寄付 など の 非協働 タスク への Generalization を 示し、 交互 発話者 モデル の 広い 適用性 を 示唆 する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。