QUICK REVIEW

[論文レビュー] Schema-Guided Dialogue State Tracking Task at DSTC8

Abhinav Rastogi, Xiaoxue Zang|arXiv (Cornell University)|Feb 2, 2020

Topic Modeling参考文献 29被引用数 32

ひとこと要約

論文は DSTC8 の Schema-Guided Dialogue State Tracking (SGDST) タスクを提示し、16 ドメインに跨る大規模な SGD データセットと複数の API、シェーマ-guided モデリング手法、および unseen APIs へのゼロショット一般化を重視した様々な提出モデルを紹介します。

ABSTRACT

This paper gives an overview of the Schema-Guided Dialogue State Tracking task of the 8th Dialogue System Technology Challenge. The goal of this task is to develop dialogue state tracking models suitable for large-scale virtual assistants, with a focus on data-efficient joint modeling across domains and zero-shot generalization to new APIs. This task provided a new dataset consisting of over 16000 dialogues in the training set spanning 16 domains to highlight these challenges, and a baseline model capable of zero-shot generalization to new APIs. Twenty-five teams participated, developing a range of neural network models, exceeding the performance of the baseline model by a very high margin. The submissions incorporated a variety of pre-trained encoders and data augmentation techniques. This paper describes the task definition, dataset and evaluation methodology. We also summarize the approach and results of the submitted systems to highlight the overall trends in the state-of-the-art.

研究の動機と目的

大規模なバーチャルアシスタントのためのデータ効率的な跨ドメインDSTモデルの構築を促進する。
多くの機能が重複する多数のAPIを単一のマスタースキーマなしに扱うための Schema-guided パラダイムを提供する。
跨ドメインおよびゼロショット一般化をテストするために16ドメインと45の合成サービスを備えた SGD データセットを紹介する。
複数の提出を評価し、未知APIを伴うゼロショットDSTに有効な技術を特定する。

提案手法

各サービスが自然言語説明付きの意図とスロットのスキーマを提供する Schema-guided アプローチを提案する。
意味論的スキーマ要素に条件付けされた単一の統一モデルを訓練し、ドメイン固有のパラメータなしにサービス間で対話状態を予測する。
事前学習済みエンコーダ（例：BERT）とデータ拡張を用いて unseen API へのゼロショット一般化を実現する。
対話ターンを各サービスのフレームとして表現し、スキーマ説明を用いて意図/スロットをコード化する。
未知のサービスとドメインを含むデータセットで評価し、ゼロショットおよびクロスドメイン能力を検証する。

実験結果

リサーチクエスチョン

RQ1多くのドメインと重複する API に対して、固定のマスタースキーマなしに効果的な対話状態追跡を実現できる Schema-guided モデルは作れるか。
RQ2 schema 説明に条件付けられたとき、未知のサービスとドメイン（ゼロショット）への一般化はどれほど良いか。
RQ3大規模なバーチャルアシスタントにおけるクロスドメインとゼロショットDST能力を最もよく明らかにするデータセットと評価設計は何か。
RQ4未知APIを跨ぐDSTに対して、スキーマ意味論を最も有効に活用するモデリングとデータ拡張戦略は何か。

主な発見

Team	Joint GA (All services)	Avg GA (All services)	Intent Acc (All services)	Req Slot F1 (All services)	Joint GA (Seen services)	Avg GA (Seen services)	Intent Acc (Seen services)	Req Slot F1 (Seen services)	Joint GA (Unseen services)	Avg GA (Unseen services)	Intent Acc (Unseen services)	Req Slot F1 (Unseen services)
Team 9*	0.8653	0.9697	0.9482	0.9847	0.9241	0.9799	0.9571	0.9936	0.8456	0.9662	0.9452	0.9817
Team 14	0.7726	0.9217	0.9674	0.9932	0.9005	0.9606	0.9578	0.9963	0.7299	0.9081	0.9706	0.9921
Team 12*	0.7375	0.9199	0.9234	0.9948	0.8795	0.9566	0.9581	0.9965	0.6901	0.9071	0.9118	0.9943
Team 8	0.7344	0.9251	0.NA	0.8713	0.9106	0.9708	0.NA	0.8475	0.6757	0.9093	0.NA	0.8793
Team 5*	0.7303	0.9249	0.9426	0.9814	0.8936	0.9662	0.9594	0.9920	0.6758	0.9105	0.9370	0.9779
Team 10	0.6946	0.9105	0.9509	0.8713	0.9203	0.9780	0.9560	0.8475	0.6193	0.8871	0.9492	0.8793
Team 13	0.6616	0.9037	0.9368	0.9854	0.8584	0.9527	0.9534	0.9960	0.5960	0.8867	0.9312	0.9819
Team 7	0.6316	0.8595	0.9231	0.9797	0.8410	0.9356	0.9449	0.9951	0.5617	0.8331	0.9158	0.9746
Team 6	0.6102	0.8430	0.9041	0.8713	0.6764	0.8397	0.9483	0.8475	0.5881	0.8442	0.8893	0.8793
Team 18	0.6099	0.9049	0.9423	0.9723	0.8223	0.9601	0.9540	0.9876	0.5390	0.8858	0.9384	0.9672
Team 21	0.5475	0.8670	0.9344	0.8713	0.7514	0.9190	0.9418	0.8475	0.4795	0.8489	0.9319	0.8793
Team 16*	0.5410	0.8027	0.9137	0.8713	0.5289	0.7515	0.9561	0.8475	0.5450	0.8205	0.8995	0.8793
Team 3	0.5035	0.7853	0.8789	0.9581	0.6172	0.8174	0.9565	0.9902	0.4656	0.7741	0.8530	0.9474
Team 25	0.4801	0.7706	0.8765	0.9862	0.5412	0.7659	0.9379	0.9960	0.4597	0.7722	0.8560	0.9829
Team 20	0.4774	0.7148	0.8400	0.9453	0.7847	0.9209	0.9416	0.9840	0.3748	0.6432	0.8061	0.9324
Team 23*	0.4647	0.7500	0.7474	0.9703	0.5275	0.7391	0.8710	0.9710	0.4438	0.7538	0.7061	0.9700
Team 11	0.4212	0.7056	0.9070	0.9663	0.6375	0.8226	0.9397	0.9964	0.3490	0.6649	0.8961	0.9563
Team 15	0.3907	0.6874	0.9379	0.9799	0.4965	0.7357	0.9516	0.9970	0.3554	0.6706	0.9333	0.9742
Team 2*	0.3647	0.7438	0.9243	0.9764	0.7363	0.9132	0.9492	0.9925	0.2406	0.6850	0.9160	0.9710
Team 22	0.3259	0.6714	0.9077	0.9525	0.6772	0.8966	0.7855	0.9504	0.2285	0.6082	0.9416	0.9530
Team 24	0.3198	0.6347	0.8764	0.9729	0.7077	0.8888	0.9413	0.9846	0.1903	0.5464	0.8548	0.9690
Team 19	0.3052	0.6302	0.9240	0.9668	0.5140	0.7476	0.9607	0.9953	0.2355	0.5894	0.9118	0.9572
Team 17	0.2525	0.5721	0.8875	0.9680	0.4179	0.6858	0.9433	0.9952	0.1973	0.5326	0.8689	0.9590
Team 1	0.2511	0.5609	0.8406	0.9648	0.4255	0.6825	0.9164	0.9949	0.1929	0.5187	0.8153	0.9547
Team 4	0.2354	0.5365	0.8841	0.9445	0.4004	0.6333	0.9228	0.9523	0.1803	0.5029	0.8712	0.9419
Baseline	0.2537	0.5605	0.9064	0.9651	0.4125	0.6778	0.9506	0.9955	0.2000	0.5192	0.8915	0.9547

SGDST は 16 ドメンドで未知APIへの強力なゼロショット一般化を可能にする。
事前学習済みエンコーダとデータ拡張（バック翻訳）を用いた上位提出は、未知サービスでの joint goal accuracy が高い。
優勝チームはテストセットで 86.53% の joint goal accuracy を達成し、未知サービスとドメインで顕著な向上を示した。
未知ドメインのカテゴリスロットの性能は、他のチームよりも近い場合がある一方で、他のチームには大きなギャップがあることが示された。
多くのアプローチは、サービス/スロット/意図の説明をスキーマ説明でエンコードし、分類器、QAスタイルのスパン、またはマルチタスク BERT ベースのモデルとして問題を扱う。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。