Skip to main content
QUICK REVIEW

[論文レビュー] Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference

R. Thomas McCoy, Ellie Pavlick|arXiv (Cornell University)|Feb 4, 2019
Topic Modeling参考文献 47被引用数 88
ひとこと要約

この論文は、NLI における統語的ヒューリスティックを診断するための HANS データセットを紹介し、最先端モデルがこれらの誤りやすいヒューリスティックに依存して HANS でパフォーマンスが低下することを示し、HANS 類似のデータで訓練を拡張することがヒューリスティック依存を低減できることを示す。

ABSTRACT

A machine learning system can score well on a given test set by relying on heuristics that are effective for frequent example types but break down in more challenging cases. We study this issue within natural language inference (NLI), the task of determining whether one sentence entails another. We hypothesize that statistical NLI models may adopt three fallible syntactic heuristics: the lexical overlap heuristic, the subsequence heuristic, and the constituent heuristic. To determine whether models have adopted these heuristics, we introduce a controlled evaluation set called HANS (Heuristic Analysis for NLI Systems), which contains many examples where the heuristics fail. We find that models trained on MNLI, including BERT, a state-of-the-art model, perform very poorly on HANS, suggesting that they have indeed adopted these heuristics. We conclude that there is substantial room for improvement in NLI systems, and that the HANS dataset can motivate and measure progress in this area

研究の動機と目的

  • 自然言語推論(NLI)における浅い統語ヒューリスティックの使用を動機づけ、診断する。
  • 狙いを定めたヒューリスティックを検証するための HANS(Heuristic Analysis for NLI Systems)を紹介する。
  • HANS 上で主要な NLI モデルを評価し、ヒューリスティックへの依存を評価する。
  • HANS 類似の例で訓練を拡張することが、ヒューリスティックに基づく失敗を減らせることを示す。

提案手法

  • 三つの誤りやすい統語ヒューリスティックを定義する:語彙の重複、部分列、成分。
  • 各ヒューリスティックにつき 10,000 の例を生成して HANS を構築する(ヒューリスティック全体で合計 30 のテンプレート、妥当性を制御)。
  • MNLI で訓練された four popular NLI models (DA, ESIM, SPINN, BERT) を HANS で評価する。
  • HANS に entailment または non-entailment のラベルを付けてヒューリスティック駆動の予測を検証する。
  • MNLI に HANS 類似の例を追加することで HANS および関連する構造依存タスクの性能向上を評価する。

実験結果

リサーチクエスチョン

  • RQ1実際に NLI モデルは提案された統語ヒューリスティックを採用しているか。
  • RQ2各ヒューリスティックを検証するよう設計された HANS のサブセットで人気モデルはどう性能か。
  • RQ3HANS 類似の例で訓練することで MNLI の性能を損なうことなくこれらのヒューリスティックへの依存を減らせるか。
  • RQ4ヒューリスティック感受性に対するモデルアーキテクチャと訓練データの相対的寄与は何か。

主な発見

  • 四つのモデルは MNLI で良く、HANS ではヒューリスティックが誤った entailment を導くため失敗する(non-entailment の場合の精度はほぼ偶然かそれ以下)。
  • DA と ESIM はヒューリスティックサブセット全体でほぼゼロの性能を示し、語順を欠くにもかかわらず語の重複に依存していることを示す。
  • SPINN は subsequence と constituent ケースで相対的に良い性能を示し、木構造表現からの構造的利点を示唆するが普遍的な堅牢性はない。
  • BERT は constituent および lexical overlap ケースで他モデルより良いが、HANS では完璧には程遠い。
  • MNLI に HANS 類似の例を追加すると HANS の性能が顕著に向上するが、アーキテクチャによって効果は異なる。MNLI の性能はモデルにより混在。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。