QUICK REVIEW

[논문 리뷰] Adversarial Examples for Evaluating Reading Comprehension Systems

Robin Jia, Percy Liang|arXiv (Cornell University)|2017. 07. 23.

Topic Modeling참고 문헌 30인용 수 262

한 줄 요약

논문은 SQuAD에 대해 방해 평가를 제시하여 단락에 방해 문장을 추가함으로써 16개 모델이 ~75 F1에서 ~36 F1로 떨어지고, 비문법적 방해의 경우 ~7 F1까지 떨어지는 등 실제 언어 이해가 제한적임을 보여준다.

ABSTRACT

Standard accuracy metrics indicate that reading comprehension systems are making rapid progress, but the extent to which these systems truly understand language remains unclear. To reward systems with real language understanding abilities, we propose an adversarial evaluation scheme for the Stanford Question Answering Dataset (SQuAD). Our method tests whether systems can answer questions about paragraphs that contain adversarially inserted sentences, which are automatically generated to distract computer systems without changing the correct answer or misleading humans. In this adversarial setting, the accuracy of sixteen published models drops from an average of $75\%$ F1 score to $36\%$; when the adversary is allowed to add ungrammatical sequences of words, average accuracy on four models decreases further to $7\%$. We hope our insights will motivate the development of new models that understand language more precisely.

연구 동기 및 목표

SQuAD 모델이 진정한 언어 이해가 아닌 피상적 패턴에 의존하는지 평가한다.
정답을 보존하면서 모델을 혼란시키는 적대적 방법을 개발한다.
적대적으로 삽입된 문장에 대한 여러 모델의 강건성을 정량화한다.
표준화된 적대적 평가를 가능하게 하는 공개 코드와 데이터를 제공한다.

제안 방법

적대적 프레임워크 A를 정의하여 (p, q, a)를 호환되면서도 오해를 일으키는 추가를 통해 (p', q', a')로 변환한다.
문단에 문장을 추가하는 연결적 적대자 AddSent와 AddOneSent를 만든다.
임의의 문장이나 일반 단어 문장을 검색 전략을 통해 삽입하도록 AddAny(및 AddCommon)를 설계한다.
의미 perturbation과 유형에 맞춘 가짜 정답을 이용해 방해 문장을 자동 생성하고, 그 후 문법 수정을 크라우드소싱한다.
여러 아키텍처(BiDAF, Match-LSTM 등)에서 표준 입력과 적대적 입력에 대해 모델을 평가한다.
AddSent/AddAny를 SQuAD 시스템에서 실행하기 위한 재현 가능한 코드와 데이터를 제공한다.

실험 결과

연구 질문

RQ1현재의 독해 모델이 진정한 언어 이해를 보이는가, 아니면 피상적 신호에 의존하는가?
RQ2정답을 모순시키지 않는 적대적으로 삽입된 문장에 대해 모델은 얼마나 강건한가?
RQ3적대적 취약점이 서로 다른 모델과 아키텍처 간에 전이될 수 있는가?
RQ4적대적 예제로 학습하는 것이 강건성을 향상시킬 수 있는가, 어떤 조건에서인가?

주요 결과

모델	Original (F1)	AddSent (F1)	AddOneSent (F1)	AddAny (F1)	AddCommon (F1)
Match Single	71.4	27.3	39.0	7.6	38.9
Match Ensemble	75.4	29.4	41.8	11.7	51.0
BiDAF Single	75.5	34.3	45.7	4.8	41.7
BiDAF Ensemble	80.0	34.2	46.9	2.7	52.6

적대적 섭동은 모델 성능을 대폭 감소시킨다: AddSent로 평균 F1이 ~75%에서 ~36%로 떨어지고, 무문법적 AddAny 유형 입력으로는 ~7%까지 떨어진다.
평가된 열여섯 모델 모두 취약하다; 일부 적대적 예가 모델 간에 전이될 수 있으며, 특히 AddSent에서 그렇다.
사람은 AddSent에서 모델보다 훨씬 높은 강건성을 보이며, AddOneSent에서는 인간의 하락이 더 작다.
적대적 데이터로 학습하는 것은 제한된 강건성 향상을 제공하고 종종 수정된 적대자(AddSentMod)에는 잘 전이되지 않는다.
적대적 예제는 실패 사례의 다수에서 모델이 적대적 문장 내의 구간을 예측하게 만들며, 의미를 바꾸는 편집에 과도하게 안정적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.