QUICK REVIEW

[論文レビュー] Performance Impact Caused by Hidden Bias of Training Data for Recognizing Textual Entailment

Masatoshi Tsuchiya|arXiv (Cornell University)|Apr 22, 2018

Topic Modeling参考文献 21被引用数 123

ひとこと要約

この論文は Naive Bayes TE-label predictor と baseline を用いた 2 半段階の手法で RTE コーパラの隠れたバイアスを検出し、SNLI では隠れたバイアスを見つけるが SICK では見つからず、そしてこのバイアスがニューラルNLPモデルのRTEの性能を歪める可能性を示す。

ABSTRACT

The quality of training data is one of the crucial problems when a learning-centered approach is employed. This paper proposes a new method to investigate the quality of a large corpus designed for the recognizing textual entailment (RTE) task. The proposed method, which is inspired by a statistical hypothesis test, consists of two phases: the first phase is to introduce the predictability of textual entailment labels as a null hypothesis which is extremely unacceptable if a target corpus has no hidden bias, and the second phase is to test the null hypothesis using a Naive Bayes model. The experimental result of the Stanford Natural Language Inference (SNLI) corpus does not reject the null hypothesis. Therefore, it indicates that the SNLI corpus has a hidden bias which allows prediction of textual entailment labels from hypothesis sentences even if no context information is given by a premise sentence. This paper also presents the performance impact of NN models for RTE caused by this hidden bias.

研究の動機と目的

大規模なRTEコーパスの品質を評価する。
文脈なしでTEラベルが予測可能であるという虚無仮説を導入する。
Naive Bayes テLabel予測モデルを開発する。
SNLI と SICK コーパスを比較して隠れたバイアスを明らかにする。
隠れたバイアスが RTE のニューラルネットワークモデルに与える影響を議論する。

提案手法

TEラベル予測可能性を前提条件なしで虚無仮説として定義する。
仮説文のユニグラム特徴を用いた多項分布Naive Bayesモデルを使ってTEラベルを予測する。
前提と仮説の文脈が欠如している場合にコーパス中で最も頻繁なTEラベルを割り当てるベースラインモデルを使用する。
符号検定を用いてTEラベル予測モデルとベースラインを比較して虚無仮説を検定する。
この方法をSNLIとSICKコーパスに適用して隠れたバイアスを評価する。
NNベースのRTEモデルに対する示唆と、バイアスが学習信号として偽装する可能性を議論する。

実験結果

リサーチクエスチョン

RQ1前提なしでTEラベルを予測できる隠れたバイアスをRTEコーパスは含んでいるか？
RQ2仮説文のみのデータで、NB TEラベル予測モデルはコーパスベースの多数派ベースラインを上回ることができるか？
RQ3SNLI に隠れたバイアスが存在するか、SICK には存在しないのか？
RQ4検出されたバイアスは RTE の NN モデルの評価と学習挙動にどのような影響を与えるか？

主な発見

TEラベル予測モデルは前提なしのSNLI仮説文で63.3%の正解率を達成し、ベースラインは34.3%である。
SICK ではTEラベル予測モデルとベースラインの性能がほぼ同等（56.7%）である。
SNLI におけるモデル間の差は統計的に有意である（p = 5.7e−202）。
SNLI に隠れたバイアスが文脈なしでTEラベルを予測することを可能にする一方で、SICK にはそのようなバイアスは見られず（SICK では虚無仮説を棄却、SNLI では棄却されず）。
RTE の NN モデルは実データの難易度が高いテストセットで大幅な性能低下を示し、真の文脈理解よりもバイアスに依存していることを示唆する。
前提語を未知トークンに置換すると文脈は減少するが、実データの容易なテストセットではNNモデルはなお機械的に高い精度を示し、真のRTE挙動よりもTEラベル予測が原因であると示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。