Skip to main content
QUICK REVIEW

[논문 리뷰] Robust Natural Language Inference Models with Example Forgetting.

Yadollah Yaghoobzadeh, Rémi Tachet des Combes|arXiv (Cornell University)|2019. 11. 10.
Topic Modeling인용 수 19
한 줄 요약

이 논문은 BERT 기반 자연어 추론 모델의 정확도를 향상시키기 위해 훈련 예제의 난이도를 측정하는 '예제 망각도'를 사용하는 방법을 제안한다. 훈련 중에 망각도가 높은 예제를 제거함으로써, HANS와 같은 분포 이탈 기준 평가에서 모델의 일반화 능력이 향상되며, 특히 대규모 BERT 버전은 최적화 후에도 더 높은 정확도를 보인다.

ABSTRACT

We investigate whether example forgetting, a recently introduced measure of hardness of examples, can be used to select training examples in order to increase robustness of natural language understanding models in a natural language inference task (MNLI). We analyze forgetting events for MNLI and provide evidence that forgettable examples under simpler models can be used to increase robustness of the recently proposed BERT model, measured by testing an MNLI trained model on HANS, a curated test set that exhibits a shift in distribution compared to the MNLI test set. Moreover, we show that, the “large” version of BERT is more robust than its “base” version but its robustness can still be improved with our approach.

연구 동기 및 목표

  • 예제 망각도가 자연어 추론 모델의 정확도 향상에 기여하는지 조사하기 위해
  • 망각도 점수에 기반해 예제를 선택함으로써 분포 이탈 상황에서의 일반화 능력 향상 여부 평가하기 위해
  • BERT base 및 BERT large 모델의 정확도를 비교하고, 제안된 방법이 둘 다에 효과를 미치는지 평가하기 위해

제안 방법

  • 예제 망각도는 피니튜닝 이후 모델의 신뢰도가 훈련 예제에서 얼마나 떨어지는지로 계산된다.
  • 망각도가 높은 예제는 MNLI 데이터로 훈련된 간단한 모델(예: BiLSTM)을 사용해 식별된다.
  • BERT 모델는 가장 망각도가 높은 예제를 제외한 MNLI 데이터의 필터링된 하위집합으로 재학습된다.
  • 정확도는 HANS 기준 평가를 통해 평가되며, 이는 단순한 언어적 힌트나 분포 이탈을 테스트하기 위함이다.
  • 성능 향상을 비교하기 위해 이 방법은 BERT base 및 BERT large 버전 모두에 적용된다.

실험 결과

연구 질문

  • RQ1예제 망각도를 활용해 어려운 또는 오락법적인 훈련 예제를 식별하고 제거함으로써 모델의 정확도를 향상시킬 수 있는가?
  • RQ2BERT 사전학습 중에 망각도가 높은 예제를 필터링하면 HANS와 같은 분포 이탈 기준 평가에서 성능 향상이 이루어지는가?
  • RQ3BERT 아키텍처의 유형(예: base 및 large)에 관계없이 정확도 향상 효과가 일관되게 나타나는가?

주요 결과

  • MNLI 훈련 데이터에서 망각도가 높은 예제를 제거함으로써 BERT의 HANS 기준 평가 성능이 향상되어 정확도 향상이 확인되었다.
  • BERT large 모델는 BERT base보다 더 높은 본질적 정확도를 보였지만, 둘 다 예제 망각도 기반 필터링으로부터 이점을 얻었다.
  • 필터링 이후 HANS 점수 향상을 통해 언어적 단순화 전략에 대한 의존도가 감소한 것으로 나타났다.
  • 대규모 BERT 모델이 HANS에서 이미 높은 성능을 보였음에도 불구하고, 성능 향상은 측정 가능하고 일관되게 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.