[논문 리뷰] On the Value of Out-of-Distribution Testing: An Example of Goodhart's Law
본 논문은 VQA-CP OOD 벤치마크를 비판하며 세 가지 실험상의 결함을 밝히고, 간단한 baselines가 최첨단 모델을 능가할 수 있음을 보여주며, OOD 테스트를 통해 일반화를 올바르게 평가하기 위한 지침을 제안한다.
Out-of-distribution (OOD) testing is increasingly popular for evaluating a machine learning system's ability to generalize beyond the biases of a training set. OOD benchmarks are designed to present a different joint distribution of data and labels between training and test time. VQA-CP has become the standard OOD benchmark for visual question answering, but we discovered three troubling practices in its current use. First, most published methods rely on explicit knowledge of the construction of the OOD splits. They often rely on ``inverting'' the distribution of labels, e.g. answering mostly 'yes' when the common training answer is 'no'. Second, the OOD test set is used for model selection. Third, a model's in-domain performance is assessed after retraining it on in-domain splits (VQA v2) that exhibit a more balanced distribution of labels. These three practices defeat the objective of evaluating generalization, and put into question the value of methods specifically designed for this dataset. We show that embarrassingly-simple methods, including one that generates answers at random, surpass the state of the art on some question types. We provide short- and long-term solutions to avoid these pitfalls and realize the benefits of OOD evaluation.
연구 동기 및 목표
- 훈련 편향을 넘어서는 일반화의 강건한 평가를 VQA 및 유사한 작업에서 촉진한다.
- VQA-CP와 같은 OOD 벤치마크를 약화시키는 세 가지 실용적 결함을 식별하고 명확히 설명한다.
- 이 결함들로 인해 간단하고 엉성한 베이스라인이 VQA-CP에서 복잡한 방법보다 우수한 성과를 낼 수 있음을 보여준다.
- 향후 벤치마크 설계에 가치를 보존하고 OOD 평가의 타당성을 유지하기 위한 구체적인 권고를 제시한다.
제안 방법
- OOD 활용이 어떻게 발생하는지 드러내기 위해 무작위 예측 및 역방향 무작위 예측을 포함한 간단한 베이스라인을 서술하고 평가한다.
- OOD 및 도메인 내 성능에 미치는 영향을 테스트하기 위해 학습된 베이스라인, 최상답 마스킹, 무작위 이미지 규제 등 다양한 베이스라인과 간단한 규제 아이디어를 도입하고 평가한다.
- 모델 선택 및 도메인 내 분할에 대한 재훈련을 위한 OOD 테스트 세트 사용이 OOD 벤치마크의 의도된 목적을 어떻게 왜곡하는지 분석한다.
- 특히 VQA-v2 재훈련 시 도메인 내 성능 평가가 OOD 성능의 하락을 숨겨 일반화 혜택에 의문을 제기한다는 것을 실증한다.
실험 결과
연구 질문
- RQ1현재의 VQA-CP 평가 관행이 OOD 분할의 의도치 않은 활용을 어떻게 가능하게 하는가?
- RQ2모델 선정에 OOD 테스트 세트를 사용하는 것이 일반화 결과에 어떤 영향을 미치는가?
- RQ3도메인 내 분할(VQA-v2 등)에서 재훈련이 OOD와 도메인 내 성능 평가에 어떤 영향을 미치는가?
- RQ4OOD 벤치마크의 오용을 드러내고 완화하며 더 나은 벤치마크 설계를 안내할 수 있는 베이스라인 또는 방법론은 무엇인가?
주요 결과
- 매우 간단한 방법조차도, 데이터셋 편향을 이용하여 VQA-CP의 특정 질문 유형에서 최첨단 모델을 능가할 수 있다.
- 모델 선택에 OOD 테스트 세트를 사용하면 적응적 과적합과 과장된 OOD 점수가 발생해 실제 일반화를 가린다.
- VQA-v2로의 재훈련이 도메인 내 성능을 평가하는 데 있어 OOD의 효과를 상당히 감소시켜 일반화 이점을 의심하게 한다.
- 예/아니오 및 숫자 질문에서 단순한 역방향 무작위 베이스라인이 매우 높은 OOD 정확도를 달성할 수 있어 예/아니오/숫자 질문이 겉으로 보이는 이득을 이끈다는 점을 강조한다.
- 랜덤 이미지 규제기는 도메인 내 및 OOD 성능 간의 균형을 조정할 수 있지만 그 이득은 종종 예/아니오/숫자 질문에 의해 지배되며 지표별로 일관되게 유익하지 않다.
- 저자들은 도메인 내 검증 데이터를 보류하고 예/아니오/숫자 이외의 질문에 분석을 집중해 진정한 일반화를 더 잘 반영하고 벤치마크의 오용에 저항하도록 할 것을 주장한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.