Skip to main content
QUICK REVIEW

[論文レビュー] Natural Perturbation for Robust Question Answering

Daniel Khashabi, Tushar Khot|arXiv (Cornell University)|Apr 9, 2020
Topic Modeling被引用数 5
ひとこと要約

本論文では、既存の質問・回答例に対して人間が行う自然な微小な変更(現実的で小さな入力の変化)を用いることで、コスト効率の良い手法として、モデルの頑健性と一般化性能を向上させることを提案する。新規に作成するのではなく、元の例をもとに変更を行うことで、特に変更コストが完全なデータ作成よりやや低い場合に、元のデータセットのパフォーマンスを維持しつつ、より高い頑健性が達成される。

ABSTRACT

While recent models have achieved human-level scores on many NLP datasets, we observe that they are considerably sensitive to small changes in input. As an alternative to the standard approach of addressing this issue by constructing training sets of completely new examples, we propose doing so via minimal perturbation of examples. Specifically, our approach involves first collecting a set of seed examples and then applying human-driven natural perturbations (as opposed to rule-based machine perturbations), which often change the gold label as well. Local perturbations have the advantage of being relatively easier (and hence cheaper) to create than writing out completely new examples. To evaluate the impact of this phenomenon, we consider a recent question-answering dataset (BoolQ) and study the benefit of our approach as a function of the perturbation cost ratio, the relative cost of perturbing an existing question vs. creating a new one from scratch. We find that when natural perturbations are moderately cheaper to create, it is more effective to train models using them: such models exhibit higher robustness and better generalization, while retaining performance on the original BoolQ dataset.

研究の動機と目的

  • 大規模なデータ拡張に依存せずに、NLPモデルの小さな入力変更に対する脆弱性を軽減すること。
  • 既存の例に対して人間が行う自然な摂動が、完全に新しいトレーニング例を生成するのと比較して、モデルの頑健性をより効率的に向上させられるかどうかを調査すること。
  • 摂動コストとモデルパフォーマンスのトレードオフ、特に頑健性と一般化性能の観点での影響を評価すること。
  • 最小限で自然な摂動によっても、正解ラベルが変更されるが、依然として効果的な学習データを提供できることを示すこと。

提案手法

  • 摂動のベースとするために、既存の質問・回答データセット(BoolQ)から一連のシード例を収集する。
  • ルールベースや構文的変換ではなく、現実的で微小な入力の変化を模倣する人間主導の自然な摂動を適用する。
  • 摂動によって正解ラベルが変更されるのを許容し、現実世界の分布シフトやモデルの頑健性の課題を反映する。
  • 摂動を加えたデータで質問・回答モデルを学習し、元の例と摂動を加えた例の両方でパフォーマンスを評価する。
  • 摂動によるデータと新規に作成された例で学習したモデルのパフォーマンスと頑健性を比較し、摂動コストと完全なデータ作成コストの相対比を変化させながら評価する。

実験結果

リサーチクエスチョン

  • RQ1人間が行う自然な摂動で学習させたモデルは、完全に新しい例で学習させたモデルと比較して、どの程度頑健性が高いか?
  • RQ2摂動コスト比(摂動の相対的コスト vs. 新規例作成の相対的コスト)が、モデルパフォーマンスおよび一般化性能に与える影響は何か?
  • RQ3正解ラベルを変更する摂動であっても、モデルの頑健性を向上させるとともに、元のデータセットでのパフォーマンスを維持できるか?
  • RQ4どのような条件下で、データの摂動が完全なデータ作成よりもモデルの頑健性向上に有効であるか?

主な発見

  • 人間が行う自然な摂動で学習させたモデルは、標準的または新規に作成された例で学習させたモデルと比較して、入力の変化に対してより高い頑健性を示す。
  • 摂動のコストが新規例作成のコストよりもやや低い場合、摂動ベースのアプローチがより優れた一般化性能を達成する。
  • 摂動によって正解ラベルが変更されても、元のBoolQデータセットでのパフォーマンスは高い水準を維持し、頑健性も向上する。
  • 特に既存の例を摂動するコストが新規作成のコストに比べて低い場合、完全なデータ作成よりもコスト効率が良い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。