QUICK REVIEW

[論文レビュー] ConvAI3: Generating Clarifying Questions for Open-Domain Dialogue Systems (ClariQ)

Mohammad Aliannejadi, Julia Kiseleva|arXiv (Cornell University)|Sep 23, 2020

Topic Modeling参考文献 9被引用数 32

ひとこと要約

本論文は、オープンドメイン対話における明確化質問を生成・評価する ClariQ チャレンジを説明する。Stage 1 は静的データ、Stage 2 は人間が介在する評価で、いつ明確化を求めるべきか、そしてどのように明確化質問を生成するかを検討する。

ABSTRACT

This document presents a detailed description of the challenge on clarifying questions for dialogue systems (ClariQ). The challenge is organized as part of the Conversational AI challenge series (ConvAI3) at Search Oriented Conversational AI (SCAI) EMNLP workshop in 2020. The main aim of the conversational systems is to return an appropriate answer in response to the user requests. However, some user requests might be ambiguous. In IR settings such a situation is handled mainly thought the diversification of the search result page. It is however much more challenging in dialogue settings with limited bandwidth. Therefore, in this challenge, we provide a common evaluation framework to evaluate mixed-initiative conversations. Participants are asked to rank clarifying questions in an information-seeking conversations. The challenge is organized in two stages where in Stage 1 we evaluate the submissions in an offline setting and single-turn conversations. Top participants of Stage 1 get the chance to have their model tested by human annotators.

研究の動機と目的

オープンドメイン対話におけるあいまいなユーザーリクエストに対処するための明確化質問の必要性を喚起する。
いつ明確化を求めるか、どう明確化質問を生成するかを研究するための2段階の ClariQ チャレンジを提案する。
アプローチをベンチマークするためのデータセット、評価指標、および人間を介在させるプロトコルを提供する。

提案手法

初期ユーザーリクエスト、明確化質問の選択肢、ユーザー回答を含む静的データセットを用いた Stage 1 を導入する。train/validate/test の分割が提供される。
2 つのタスクを定義する： (a) 明確化質問の必要性を示す 1–4 のスコアを推定する； (b) 銘柄 bank から最も適切な明確化質問を選択する。
検索型評価指標（MRR、P@k、nDCG）を用いて、明確化が下流の文書検索に与える影響を評価する。
Stage 2 は実際のユーザーを巻き込み（人間を介在させる評価）、いつ明確化すべきか、どのように応答すべきかを判断する対話システムを評価する。対話管理には生成モデルを優先する。
データと評価スクリプトを含む公開リポジトリを提供する。）

実験結果

リサーチクエスチョン

RQ1RQ1: 対話中に明確化質問をいつ尋ねるべきか？
RQ2RQ2: 明確化質問をどのように生成するか？

主な発見

Stage 1 は、ユーザーリクエスト、明確化質問、回答を含むデータセットと、70/30 の train/validation 分割、質問バンクを備えたテスト設定を提供する。
評価は、質問の関連性に対する retrieval 指標（MRR、P@1/3/5/10/20、nDCG@1/3/5/20）および Recall@10/20/30 で性能を示す。
Stage 2 は、生成モデルを用いた対話管理と実ユーザー評価への移行を強調し、明確化を求めることと関連性の高い回答を提供することのバランスを取る。
人間を介在させる評価は、会話履歴、システムの応答、関連性と自然さのユーザー評価を収集する。
GitHub のリポジトリにはデータと自動評価スクリプトがホストされている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。