[논문 리뷰] Robustness to Spurious Correlations via Human Annotations
이 논문은 인간이 제공한 측정되지 않은 혼란 변수(예: 흡연, 인종, 위치)에 대한 자연어 기술을 활용하여 허위 상관관계에 대한 모델의 강건성을 향상시키는 UV-DRO 프레임워크를 제안한다. 이러한 기술을 측정되지 않은 변수의 대체 지표로 간주함으로써, 잠재적인 테스트 시 분포 이탈에 대해 분포로 보존 최적화 목표를 수립한다. 이로 인해 숫자 인식 작업에서는 5–10%의 정확도 향상을, NYPD 정지 예측 작업에서는 1.5–5%의 성능 향상을 달성하여 오라클 성능에 가까워졌다.
The reliability of machine learning systems critically assumes that the associations between features and labels remain similar between training and test distributions. However, unmeasured variables, such as confounders, break this assumption---useful correlations between features and labels at training time can become useless or even harmful at test time. For example, high obesity is generally predictive for heart disease, but this relation may not hold for smokers who generally have lower rates of obesity and higher rates of heart disease. We present a framework for making models robust to spurious correlations by leveraging humans' common sense knowledge of causality. Specifically, we use human annotation to augment each training example with a potential unmeasured variable (i.e. an underweight patient with heart disease may be a smoker), reducing the problem to a covariate shift problem. We then introduce a new distributionally robust optimization objective over unmeasured variables (UV-DRO) to control the worst-case loss over possible test-time shifts. Empirically, we show improvements of 5-10% on a digit recognition task confounded by rotation, and 1.5-5% on the task of analyzing NYPD Police Stops confounded by location.
연구 동기 및 목표
- 흡연, 인종, 위치와 같은 측정되지 않은 혼란 변수로 인한 분포 이탈로 인한 모델 실패 문제를 해결하기 위해.
- 인간의 인과 관계에 대한 공통 지식을 활용하여 가능한 테스트 시 분포 이탈을 식별하기 위해.
- 혼란 변수를 명시적으로 측정할 필요 없이 모델의 강건성을 향상시키는 방법을 개발하기 위해.
- 측정되지 않은 변수에 대한 자연어 기술이 분포로 보존 최적화를 효과적으로 이끌 수 있는지 보여주기 위해.
제안 방법
- 레이블 예측을 설명할 수 있는 잠재적인 측정되지 않은 변수(UV)에 대한 인간이 제공한 자연어 기술을 훈련 데이터에 추가한다.
- 인간의 기술을 활용해 관측된 특징 $ x $ 와 레이블 $ y $ 를 조건으로 하는 잠재적 요인 $ c $ 로 측정되지 않은 변수를 모델링한다.
- 가능한 테스트 시 $ (x, c) $ 의 분포 이탈에 대해 최악의 예상 손실을 최소화하는 새로운 목표인 UV-DRO(Unmeasured Variable Distributionally Robust Optimization)를 수립한다.
- 기본 기술에서 유도된 조건부 분포 $ p(c \mid x, y) $ 를 사용해 잠재적 테스트 분포 집합 $ \mathcal{P} $ 를 정의함으로써 공변량 이동 스타일 일반화를 가능하게 한다.
- 다양한 측정되지 않은 혼란 변수 이동에 대해 성능 강건성을 확보하기 위해 UV-DRO를 사용해 모델을 훈련한다.
- 자유형 텍스트 기술을 벡터 표현(예: 거리 행렬을 사용)으로 변환하여 학습 목표에 통합한다.
실험 결과
연구 질문
- RQ1측정되지 않은 혼란 변수에 대한 인간이 제공한 자연어 기술이 허위 상관관계에 대한 모델의 강건성 향상에 기여하는가?
- RQ2UV-DRO는 진정한 혼란 변수 분포를 알고 있는 오라클 모델의 성능을 어느 정도 근접하는가?
- RQ3실제 작업에서 측정되지 않은 변수가 존재할 경우, UV-DRO는 표준 ERM 및 기존 DRO 기준 모델보다 얼마나 효과적인가?
- RQ4인간이 제공한 측정되지 않은 변수 기술이 고위험 예측 작업에서 인종이나 사회경제적 배경과 같은 의미 있는 해석 가능한 요소를 잘 포착하는가?
주요 결과
- UV-DRO는 회전에 의한 혼란이 있는 MNIST 숫자 인식 작업에서 표준 ERM 및 기존 DRO 기준 모델보다 뚜렷하게 뛰어난 5–10%의 정확도 향상을 달성했다.
- NYPD 정지 예측 작업에서는 1.5–5%의 정확도 향상을 기록했으며, ERM와 오라클 DRO 모델 간의 격차의 약 절반에 가까운 성과를 보였다.
- 공동 작업을 통해 확보한 기술은 인종, 경찰 판단, 폭력 범죄 등 의미 있는 측정되지 않은 변수를 성공적으로 포착했으며, 모델 가중치는 도메인 지식과 일치했다.
- 단순히 기술만을 사용해 훈련한 로지스틱 회귀 모델은 정지 위치 예측에서 64.8%의 정확도를 기록했으며, 관측된 특수만을 사용한 모델(61.3%)보다 뛰어난 성능을 보였다.
- 기본 기술 데이터를 무작위로 섞거나 표준 DRO 기준 모델을 사용한 경우 ERM 수준 이외의 성능 향상이 없었으며, 이는 UV-DRO의 성공이 인간 기술의 품질과 구조에 기인함을 확인시켰다.
- 결과적으로 인간의 공통 지식이 자연어 기술을 통해 형식화될 경우, 측정되지 않은 혼란 변수를 효과적으로 모델링하고 강건한 일반화를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.