QUICK REVIEW

[논문 리뷰] Performance Impact Caused by Hidden Bias of Training Data for Recognizing Textual Entailment

Masatoshi Tsuchiya|arXiv (Cornell University)|2018. 04. 22.

Topic Modeling참고 문헌 21인용 수 123

한 줄 요약

한 논문은 RTE 코퍼스에서 숨겨진 바이어스를 탐지하기 위한 두 단계 방법을 제안하고, Naive Bayes TE-label predictor와 baseline을 사용해 SNLI에서 숨겨진 바이어스를 발견했지만 SICK에서는 발견되지 않았으며, 이 바이어스가 신경망 NLP 모델의 RTE 성능을 왜곡할 수 있음을 보인다.

ABSTRACT

The quality of training data is one of the crucial problems when a learning-centered approach is employed. This paper proposes a new method to investigate the quality of a large corpus designed for the recognizing textual entailment (RTE) task. The proposed method, which is inspired by a statistical hypothesis test, consists of two phases: the first phase is to introduce the predictability of textual entailment labels as a null hypothesis which is extremely unacceptable if a target corpus has no hidden bias, and the second phase is to test the null hypothesis using a Naive Bayes model. The experimental result of the Stanford Natural Language Inference (SNLI) corpus does not reject the null hypothesis. Therefore, it indicates that the SNLI corpus has a hidden bias which allows prediction of textual entailment labels from hypothesis sentences even if no context information is given by a premise sentence. This paper also presents the performance impact of NN models for RTE caused by this hidden bias.

연구 동기 및 목표

대형 RTE 코퍼스의 품질을 평가한다.
맥락 없이 TE-label 예측 가능성에 대한 무가설(null hypothesis)을 도입한다.
Naive Bayes TE-label 예측 모델을 개발한다.
SNLI와 SICK 코퍼스를 비교해 숨겨진 바이어스를 밝혀낸다.
숨겨진 바이어스가 RTE를 위한 신경망 모델에 미치는 영향을 논의한다.

제안 방법

전제 없이 TE-label 예측 가능성을 무가설로 정의한다.
가설 문장에 단일그램 특징을 사용한 다항 나이브 베이즈 모델로 TE 라벨을 예측한다.
전제와 가설 맥락이 없을 때 코퍼스에서 가장 빈번한 TE 라벨을 할당하는 베이스라인 모델을 사용한다.
부호 검정을 사용하여 TE-label 예측 모델과 베이스라인을 비교해 무가설을 검정한다.
숨겨진 바이어스를 평가하기 위해 SNLI 및 SICK 코퍼스에 이 방법을 적용한다.
NN 기반 RTE 모델에 대한 시사점과 바이어스가 학습 신호처럼 보일 수 있는 방식에 대해 논의한다.

실험 결과

연구 질문

RQ1RTE 코퍼스에 전제 없이 TE 라벨을 예측하게 하는 숨겨진 바이어스가 존재하는가?
RQ2Hypothesis-only 데이터에서 NB TE-label 예측기가 코퍼스 기반 다수 베이스라인을 능가할 수 있는가?
RQ3SNLI에 숨겨진 바이어스가 존재하는가, 아니면 SICK에서 존재하지 않는가?
RQ4탐지된 바이어스가 RTE를 위한 NN 모델의 평가 및 학습 행동에 어떤 영향을 미치는가?

주요 결과

TE 라벨 예측 모델은 전제 없이 SNLI 가설 문장에서 63.3% 정확도에 도달하고, baseline은 34.3%이다.
SICK에서는 TE 라벨 예측기와 베이스라인의 성능이 유사하게 나타난다(56.7%).
SNLI에서 모델 간 차이는 통계적으로 유의하며(p = 5.7e−202).
SNLI의 숨겨진 바이어스는 맥락 없이 TE 라벨 예측을 가능하게 하는 반면, SICK은 그러한 바이어스가 없음을 보이며(무가설은 SICK에 대해 기각됨, SNLI는 기각되지 않음).
RTE용 NN 모델은 실험적으로 어려운 테스트 세트에서 성능 저하가 큰 경향을 보이며, 진정한 맥락 이해보다 바이어스에 의존함을 시사한다.
전제 단어를 알 수 없는 토큰으로 대체하면 맥락이 줄어들지만, NN 모델은 여전히 경험적 쉬운 테스트 세트에서 확률보다 높은 성능을 보이며, 이는 TE-label 예측이 실제 RTE 동작이라기보다는 바이어스 때문임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.