[논문 리뷰] What does BERT Learn from Multiple-Choice Reading Comprehension Datasets?
이 논문은 다중선택 독해(MCRC) 데이터셋에서 BERT가 학습하는 바를 두 가지 탐사 방법을 사용하여 조사한다: 읽을 수 없는 데이터 공격과 답변이 불가능한 데이터 훈련. 결과적으로 BERT는 의미적 이해나 문법적 구조보다는 关건어 매칭과 통계적 특징에 크게 의존하며, 정확한 맥락이나 어순이 없어도 높은 성능을 내는 것으로 나타나 현재의 MCRC 벤치마크에 근본적인 한계가 있음을 드러낸다.
Multiple-Choice Reading Comprehension (MCRC) requires the model to read the passage and question, and select the correct answer among the given options. Recent state-of-the-art models have achieved impressive performance on multiple MCRC datasets. However, such performance may not reflect the model's true ability of language understanding and reasoning. In this work, we adopt two approaches to investigate what BERT learns from MCRC datasets: 1) an un-readable data attack, in which we add keywords to confuse BERT, leading to a significant performance drop; and 2) an un-answerable data training, in which we train BERT on partial or shuffled input. Under un-answerable data training, BERT achieves unexpectedly high performance. Based on our experiments on the 5 key MCRC datasets - RACE, MCTest, MCScript, MCScript2.0, DREAM - we observe that 1) fine-tuned BERT mainly learns how keywords lead to correct prediction, instead of learning semantic understanding and reasoning; and 2) BERT does not need correct syntactic information to solve the task; 3) there exists artifacts in these datasets such that they can be solved even without the full context.
연구 동기 및 목표
- BERT의 MCRC 데이터셋에서의 높은 성능이 진정한 언어 이해를 반영하는지 아니면 통계적 패턴에 의존하는지 조사하기 위해.
- BERT가 문장과 질문 입력에서 문법적 구조나 의미적 일관성에 의존하는지 평가하기 위해.
- 의미 있는 맥락 없이도 질문에 답할 수 있도록 BERT가 학습할 수 있는지 평가하기 위해, 이는 데이터셋의 특징을 드러내기 위함이다.
- 모순된 상관관계로 인해 MCRC 벤치마크가 얼마나 오해의 소지가 있는지 폭 드러내기 위해.
제안 방법
- 문장의 어순을 뒤바꿔 읽을 수 없는 문장을 문장 끝에 첨부하여 BERT의 견고성 테스트를 위한 읽을 수 없는 데이터 공격을 적용하기 위해.
- 선택지의 단어를 무작위로 뒤섞어 악성 입력을 생성하는 AddSent2Opt-Shuffle 방법을 사용하기 위해.
- 입력의 일부를 제거하거나 뒤섞어(예: 문장 또는 질문 누락) 문법적 또는 의미적 구조 없이 성능을 평가하기 위해 BERT를 훈련시키기 위해.
- 읽을 수 없는 공격에 의한 성능 저하를 측정하여 관건어 매칭에 대한 의존도를 추론하기 위해.
- 악성 시퀀스의 단어를 선택지에 단계적으로 추가함에 따라 예측 확률의 변화를 분석하기 위해.
- 성능 저하와 답변 길이, 시퀀스 길이 변화, 뒤섞기 정도 등의 요소 간 상관 계수를 계산하여 주요 영향 요인을 분리하기 위해.
실험 결과
연구 질문
- RQ1BERT가 MCRC 작업에서 의미적 이해보다 관건어 매칭에 얼마나 의존하는가?
- RQ2BERT가 문장이나 선택지의 읽을 수 없거나 문법적으로 잘못된 입력에 얼마나 견고한가?
- RQ3의미적 일관성이 없는 또는 뒤섞인 입력에서만 훈련된 BERT가 MCRC 작업에서 높은 성능을 낼 수 있는가?
- RQ4데이터셋의 특징과 통계적 단서가 기존 MCRC 벤치마크에서 BERT의 성공에 어떤 역할을 하는가?
- RQ5BERT의 MCRC 데이터셋에서의 성능이 정확한 문법적 구조나 어순에 의존하는가?
주요 결과
- 읽을 수 없는 문장을 문장 끝에 첨부했을 때 BERT의 성능이 크게 떨어지며, 이는 관건어 매칭에 대한 강한 의존도를 시사한다.
- 답변이 불가능한 데이터로 훈련했을 때 BERT는 관건어만 남아 있어도 높은 정확도를 달성하며, 이는 데이터셋의 특징을 악용하고 있음을 보여주며 의미를 학습하지는 않는다는 것을 시사한다.
- BERT는 뒤섞인 입력에서도 잘 작동함을 보이며, MCRC 작업을 해결하기 위해 정확한 어순이나 문법적 구조가 필요하지 않음을 보여준다.
- 읽을 수 없는 공격에 의한 성능 저하는 시퀀스 길이 변화와 강한 상관관계를 보이지 않으며, 이는 어순 뒤섞기가 핵심 요인이며 길이 변화는 아님을 시사한다.
- 악성 시퀀스의 단어를 선택지에 단계적으로 추가할수록 예측 확률이 크게 변화하며, 'number'나 'counter'와 같은 관건어는 모델 출력에 강력한 영향을 미친다.
- 뒤섞기 정도와 모델 성능 사이에 강한 음의 상관관계가 있으며, 이는 높은 수준의 방해가 성능 저하를 더 크게 유도한다는 것을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.