QUICK REVIEW

[論文レビュー] Identifying Untrustworthy Samples: Data Filtering for Open-domain Dialogues with Bayesian Optimization

Lei Shen, Haolan Zhan|arXiv (Cornell University)|Sep 14, 2021

Topic Modeling参考文献 36被引用数 4

ひとこと要約

本稿では、7つの対話属性を重み付き品質指標に統合することで信頼性の低いトレーニングサンプルを特定する、ベイズ最適化に基づくデータフィルタリング手法を提案する。この手法は検証セット上でベイズ最適化を用いて属性の重みを最適化し、低スコアのサンプルをフィルタリングする。さらに、再訓練を高速化するためのハイブリッドMLE-NEGトレーニングフレームワークを採用し、2つのベンチマークデータセットにおいて応答品質が向上した。

ABSTRACT

Being able to reply with a related, fluent, and informative response is an indispensable requirement for building high-quality conversational agents. In order to generate better responses, some approaches have been proposed, such as feeding extra information by collecting large-scale datasets with human annotations, designing neural conversational models (NCMs) with complex architecture and loss functions, or filtering out untrustworthy samples based on a dialogue attribute, e.g., Relatedness or Genericness. In this paper, we follow the third research branch and present a data filtering method for open-domain dialogues, which identifies untrustworthy samples from training data with a quality measure that linearly combines seven dialogue attributes. The attribute weights are obtained via Bayesian Optimization (BayesOpt) that aims to optimize an objective function for dialogue generation iteratively on the validation set. Then we score training samples with the quality measure, sort them in descending order, and filter out those at the bottom. Furthermore, to accelerate the "filter-train-evaluate" iterations involved in BayesOpt on large-scale datasets, we propose a training framework that integrates maximum likelihood estimation (MLE) and negative training method (NEG). The training method updates parameters of a trained NCMs on two small sets with newly maintained and removed samples, respectively. Specifically, MLE is applied to maximize the log-likelihood of newly maintained samples, while NEG is used to minimize the log-likelihood of newly removed ones. Experimental results on two datasets show that our method can effectively identify untrustworthy samples, and NCMs trained on the filtered datasets achieve better performance.

研究の動機と目的

信頼性の低いトレーニングサンプルが原因で、汎用対話システムにおいて一般化・一貫性のない、または関連のない応答が生成される問題に対処すること。
モデルアーキテクチャや損失関数の変更に依存せず、低品質なトレーニングデータをフィルタリングすることで対話生成品質を向上させること。
複数の対話属性を統合した統一された品質指標にすることにより、単一指標に依存するのではなく、品質評価を統合的に行うデータフィルタリング手法を開発すること。
検証セット上で性能を最大化するように、これらの属性の重みをベイズ最適化を用いて最適化すること。
新しいサンプルの追加・削除に応じて動的に更新される小さなセットに基づいてモデルパラメータを更新することで、大規模データセットにおける反復的フィルタリング-トレーニング-評価プロセスを高速化する、新しいMLE-NEGファインチューニング戦略を提案すること。

提案手法

品質指標 𝑆 は、明確性、反復性、関連性、一貫性、一貫性、流暢さ、一貫性の7つの対話属性の線形結合として定義される。
𝑆 における属性の重みは、検証セット上で対話生成の目的関数を最大化するように、ベイズ最適化（BayesOpt）により最適化される。
目的関数は、BLEU、パープレキシティ、Distinct-n、および応答内多様性といった自動評価指標に基づく。
最適化された 𝑆 を用いてサンプルにスコアを付与し、降順に順位付けし、低スコアのものからフィルタリングされる。
最大尤度推定（MLE）を新規に保持されたサンプルに、ネガティブトレーニング（NEG）を新規に削除されたサンプルに適用する、新しいトレーニングフレームワークを統合し、再訓練を高速化する。
変更されたサンプルの小さな動的セットに基づいてモデルパラメータを更新することで、大規模データセット上での効率的な「フィルタリング-トレーニング-評価」反復処理が可能になる。

実験結果

リサーチクエスチョン

RQ17つの対話属性を統合した複数属性品質指標は、単一属性フィルタリングに比べ、信頼性の低い対話サンプルをより効果的に同定できるか？
RQ2ベイズ最適化は、対話データのフィルタリングに最適な属性重みを学習するのにどの程度有効か？
RQ3提案された MLE-NEG ファインチューニング戦略は、大規模データセットにおける反復的データフィルタリングの際、トレーニング時間を顕著に短縮できるか？
RQ4最適化された品質指標に基づくデータフィルタリングは、自動評価および人間評価指標の性能向上をもたらすか？
RQ5フィルタリングされたデータでトレーニングされた対話モデルの性能は、元のデータまたは単一属性でフィルタリングされたデータでトレーニングされたモデルと比べてどのように異なるか？

主な発見

ベイズ最適化で最適化された重みを用いて7つの対話属性を統合した本手法は、2つのベンチマークデータセットにおいて、すべての自動評価指標で最高の性能を達成した。
DailyDialog データセットでは、フィルタリング済みモデルが BLEU スコア 0.80 を達成し、ベースライン（0.46）から17％の相対的向上を示し、パープレキシティは 46.06 に低下し、ベースラインの 48.98 よりも顕著に低かった。
フィルタリングデータでトレーニングされたモデルは、基準の 0.27 に対して Distinct-3 スコア 1.70 を達成し、応答の多様性が向上していることが示された。
MLE-NEG トレーニングフレームワークにより、再訓練が効率的に行われ、大規模データセットにおける反復的フィルタリングの時間コストが削減された。
ベイズ最適化は広範な仮説空間を探索し、反復ごとに検証指標を一貫して向上させたことが、J値曲線から明らかになった。
本手法は、一貫性、関連性、流暢さといった個別属性に基づくフィルタリングを上回り、複数の側面から評価する品質評価の利点を実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。