QUICK REVIEW

[논문 리뷰] Evaluating Models' Local Decision Boundaries via Contrast Sets

Matt Gardner, Yoav Artzi|arXiv (Cornell University)|2020. 04. 06.

Topic Modeling참고 문헌 71인용 수 44

한 줄 요약

논문은 테스트 인스턴스 주변의 전문가가 설계한 로컬 교란인 contrast sets를 통해 모델의 지역적 의사 결정 경계를 탐구하고, 10개 NLP 데이터셋에서 robustness 갭과 contrast sets에서의 성능 큰 하락을 드러낸다.

ABSTRACT

Standard test sets for supervised learning evaluate in-distribution generalization. Unfortunately, when a dataset has systematic gaps (e.g., annotation artifacts), these evaluations are misleading: a model can learn simple decision rules that perform well on the test set but do not capture a dataset's intended capabilities. We propose a new annotation paradigm for NLP that helps to close systematic gaps in the test data. In particular, after a dataset is constructed, we recommend that the dataset authors manually perturb the test instances in small but meaningful ways that (typically) change the gold label, creating contrast sets. Contrast sets provide a local view of a model's decision boundary, which can be used to more accurately evaluate a model's true linguistic capabilities. We demonstrate the efficacy of contrast sets by creating them for 10 diverse NLP datasets (e.g., DROP reading comprehension, UD parsing, IMDb sentiment analysis). Although our contrast sets are not explicitly adversarial, model performance is significantly lower on them than on the original test sets---up to 25\% in some cases. We release our contrast sets as new evaluation benchmarks and encourage future dataset construction efforts to follow similar annotation processes.

연구 동기 및 목표

나이브하게 학습된 모델이 높은 정확도를 달성하게 하는 NLP 테스트 데이터의 체계적 차이를 식별한다.
테스트 피벗(pivot) 주변에 contrast set을 만들기 위한 주석(annotatiion) 패러다임을 제안한다.
다양한 작업에 걸쳐 모델의 로컬 의사 결정 경계가 실제 언어 현상을 얼마나 잘 반영하는지 평가한다.

제안 방법

피벗 x 주변의 로컬 의사 결정 경계를 입력 공간에서의 거리 개념으로 정의한다.
골 라벨을 일반적으로 바꾸는 전문가 교란에 의해 contrast set C(x)를 구성한다.
컨트라스트 일관성(contrast consistency)으로 모델을 평가한다: (x', y')에 대해 모든 경우에 예측이 라벨 y'와 일치하는지 여부를 평가한다.
훈련 시 인위적 경계를 방지하기 위해 i.i.d. 테스트 데이터에서 피벗을 샘플링하고 i.i.d. contrast set을 피한다.
읽기 이해, 구문 분석, 감정 분석 등 데이터셋별 교란이 적용된 10개 NLP 데이터셋에 이 과정을 적용한다.
향후 데이터셋 구성 및 평가를 위한 벤치마크로서 결과 contrast 세트를 공개한다.

실험 결과

연구 질문

RQ1모델의 예측은 테스트 인스턴스 주변의 작고 언어적으로 의미 있는 교란에서 어떻게 달라지는가?
RQ2contrast set은 표준 i.i.d. 테스트 정확도에서 보이지 않는 로컬 의사 결정 경계의 불일치를 드러내는가?
RQ3데이터셋마다 시스템적으로 모델 성능을 감소시키는 작업 특성 교란이 존재하는가?

주요 결과

데이터셋	예시 수	# 세트	모델	원래 테스트	대조(Contrast)	차이	일관성
NLVR2	994	479	LXMERT	76.4	61.1	(–15.3)	30.1
IMDb	488	488	BERT	93.8	84.2	(–9.6)	77.8
MATRES	401	239	CogCompTime2.0	73.2	63.3	(–9.9)	40.6
UD English	150	150	Biaffine + ELMo	64.7	46.0	(–18.7)	17.3
PERSPECTRUM	217	217	RoBERTa	90.3	85.7	(–4.6)	78.8
DROP	947	623	MTMSN	79.9	54.2	(–25.7)	39.0
QUOREF	700	415	XLNet-QA	70.5	55.4	(–15.1)	29.9
ROPES	974	974	RoBERTa	47.7	32.5	(–15.2)	17.6
BoolQ	339	70	RoBERTa	86.1	71.1	(–15.0)	59.0
MC-TACO	646	646	RoBERTa	38.0	14.0	(–24.0)	8.0

contrast set은 원래의 테스트 세트에 비해 10개 데이터셋 모두에서 성능 저하를 보이며, 일부 케이스에서는 최대 25%까지 감소한다.
contrast set에서의 일관성은 로컬 변형을 올바르게 처리해야 한다는 것을 보여주며, 이는 의도된 데이터셋 현상과의 일치를 요구한다.
작업과 모델에 따라 취약성의 정도가 다르게 나타나며, 데이터셋 설계와 실제 언어 능력 간의 격차가 존재함을 시사한다.
저자들은 NLP 작업 전반에 일반화 가능하고 데이터셋에 맞춘 단일화된 contrast set 구성 방식은 일관되게 적용 가능하다고 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.