QUICK REVIEW

[論文レビュー] TREC CAsT 2019: The Conversational Assistance Track Overview

Jeff Dalton, Chenyan Xiong|arXiv (Cornell University)|Mar 30, 2020

Topic Modeling参考文献 8被引用数 30

ひとこと要約

この論文は、TREC Conversational Assistance Track(CAsT 2019)の初年度のタスク定義、データ構築、評価方法論、参加システム、および結果を概説します。対話情報検索に使用されるデータセット、トピック、パッセージコレクション、および大規模なベースラインとニューラル再ランク付けアプローチのセットを提示します。

ABSTRACT

The Conversational Assistance Track (CAsT) is a new track for TREC 2019 to facilitate Conversational Information Seeking (CIS) research and to create a large-scale reusable test collection for conversational search systems. The document corpus is 38,426,252 passages from the TREC Complex Answer Retrieval (CAR) and Microsoft MAchine Reading COmprehension (MARCO) datasets. Eighty information seeking dialogues (30 train, 50 test) are an average of 9 to 10 questions long. Relevance assessments are provided for 30 training topics and 20 test topics. This year 21 groups submitted a total of 65 runs using varying methods for conversational query understanding and ranking. Methods include traditional retrieval based methods, feature based learning-to-rank, neural models, and knowledge enhanced methods. A common theme through the runs is the use of BERT-based neural reranking methods. Leading methods also employed document expansion, conversational query expansion, and generative language models for conversational query rewriting (GPT-2). The results show a gap between automatic systems and those using the manually resolved utterances, with a 35% relative improvement of manual rewrites over the best automatic system.

研究の動機と目的

最初のCAsT年度の対話型検索タスクと文脈要件を定義する。
再現可能なCIS研究を可能にする再利用可能なトピック、パッセージ、および評価リソースを作成する。
対話的パッセージ検索を評価するためのベースラインツールとデータブレンド（MS MARCO、CAR、WaPo）を提供する。
Year 2を導くためにターン深度の影響を分析し、参加システムの有効性を評価する。

提案手法

対話が複数ターン続く文脈で、短いパッセージ（1-3文）を選択することとして対話型検索を定義する。
実際の対話を模倣するため、10ターンを各とする30の訓練トピックと50の評価トピックを構築する。
重複排除ルールを適用して、MS MARCO、TREC CAR（Wikipedia）、WaPo からパッセージコレクションを組み立てる。
トレーニングデータ、発話の手動書換え、コンテキスト豊かな訓練のためのMS MARCO Conversational Search Sessions拡張を提供する。
トピック読み込み、Indriベースの検索、バッチ検索と対話検索のサポートのためのソフトウェアツールを公開する。

実験結果

リサーチクエスチョン

RQ1対話の文脈は各ターンにおける取得パッセージの関連性にどのように影響するか？
RQ2対話設定におけるターン深度が検索有効性に及ぼす影響はどのようか？
RQ3文脈を活用して上位のパッセージを改善する最適な手法（検索、再ランク付け、クエリ理解）は何か？
RQ4評価において manual（解決済み）発話と自動（解決されていない）発話はどのように比較されるか？
RQ5自動評価と manual 評価の両方のシナリオでニューラル再ランク付け（例：BERT）を使用する影響は何か？

主な発見

自動実験はシステム間で大きなばらつきを示し、トップパフォーマンスの実行は主にBERTベースの再ランク付けを活用している。
手動実行は自動実行より平均でNDCG@3が高く、解決された、あいまいでないターンのメリットを示している。
トップ評価の自動実行はしばしば文脈的クエリ書き換え/展開とニューラル再ランク付けを組み合わせ、最良の手動実行もBERTベースの再ランク付けに依存している。
自動実行ではターン深度が進むにつれてNDCG@3が低下し、ターン間での文脈理解の維持が課題であることを示す。手動実行は低下が小さく、手動と自動の性能差が拡大している。
プーリングと評価設計はリソース制約に直面したが、著者らはベンチマークをYear 2の設計に有用で再利用可能と判断した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。