QUICK REVIEW

[논문 리뷰] Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference

R. Thomas McCoy, Ellie Pavlick|arXiv (Cornell University)|2019. 02. 04.

Topic Modeling참고 문헌 47인용 수 88

한 줄 요약

이 논문은 NLI에서 구문 휴리스틱을 진단하기 위해 HANS 데이터셋을 소개하고, 최첨단 모델이 이러한 fallible 휴리스틱에 의존하며 HANS에서 성능이 저하됨을 보여주며, HANS 유사 데이터로 학습을 보강하면 휴리스틱 의존성을 줄일 수 있음을 입증한다.

ABSTRACT

A machine learning system can score well on a given test set by relying on heuristics that are effective for frequent example types but break down in more challenging cases. We study this issue within natural language inference (NLI), the task of determining whether one sentence entails another. We hypothesize that statistical NLI models may adopt three fallible syntactic heuristics: the lexical overlap heuristic, the subsequence heuristic, and the constituent heuristic. To determine whether models have adopted these heuristics, we introduce a controlled evaluation set called HANS (Heuristic Analysis for NLI Systems), which contains many examples where the heuristics fail. We find that models trained on MNLI, including BERT, a state-of-the-art model, perform very poorly on HANS, suggesting that they have indeed adopted these heuristics. We conclude that there is substantial room for improvement in NLI systems, and that the HANS dataset can motivate and measure progress in this area

연구 동기 및 목표

자연어 추론(NLI)에서 얕은 구문 휴리스틱의 사용을 동기 부여하고 진단한다.
대상 휴리스틱을 테스트하기 위해 HANS(Heuristic Analysis for NLI Systems)를 도입한다.
휴리스틱 의존성을 평가하기 위해 HANS에서 주요 NLI 모델을 평가한다.
HANS 유사 예시로의 학습 보강이 휴리스틱 주도 실패를 줄일 수 있음을 보여준다.

제안 방법

세 가지 fallible 구문 휴리스틱: 어휘 중복, 부분수열, 구성요소를 정의한다.
제어 가능한 타당성을 가진 휴리스틱당 10,000개의 예제를 생성하여 HANS를 구성한다(휴리스틱 전체 30 템플릿).
MNLI에서 학습된 four popular NLI 모델(DA, ESIM, SPINN, BERT)을 HANS에서 평가한다.
휴리스틱 주도 예측을 테스트하기 위해 HANS에 함의 혹은 비함의 라벨을 주석한다.
MNLI를 HANS 유사 예제로 보강하는 것이 HANS와 관련 구조 의존적 작업에서 성능을 향상시키는지 평가한다.

실험 결과

연구 질문

RQ1NLI 모델이 실무에서 제시된 구문 휴리스틱을 채택하는가?
RQ2각 휴리스틱을 테스트하도록 설계된 HANS 하위집합에서 인기 있는 모델의 성능은 어떤가?
RQ3MNLI 성능을 해치지 않으면서 HANS 유사 예제로 학습하는 것이 이러한 휴리스틱 의존성을 줄일 수 있는가?
RQ4휴리스틱 취약성에 대한 모델 아키텍처의 상대적 기여도는 어느 정도인가?

주요 결과

네 모델 모두 MNLI에서 잘 작동하지만 HANS에서 휴리스틱이 잘못된 함의 예측으로 이어져 비함의 케이스에서 정확도가 확률에 근접하거나 그 이하이다.
DA와 ESIM은 휴리스틱 하위집합 전반에서 거의 성능이 없으며 어휘 중복에 의존하지만 어휘 순서를 고려하지 않는다는 점에서 약한 성능을 보인다.
SPINN은 부분수열과 구성요소 케이스에서 상대적으로 더 나은 성능을 보이나 트리 기반 표현의 구조적 이점이 있음을 시사하지만 보편적 강건성은 아니다.
BERT는 구성요소 및 어휘 중복 케이스에서 다른 모델보다 더 잘 수행하지만 HANS에서 완벽에 아직 멀다.
MNLI 유사 예제로의 보강은 모델 전반에서 HANS 성능을 현저히 향상시키지만 아키텍처에 따라 효과가 다르게 나타나며, MNLI 성능은 모델에 따라 혼재된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.