QUICK REVIEW

[논문 리뷰] Unshuffling Data for Improved Generalization

Damien Teney, Ehsan Abbasnejad|arXiv (Cornell University)|2020. 02. 27.

Multimodal Machine Learning Applications참고 문헌 82인용 수 41

한 줄 요약

훈련 데이터를 여러 환경으로 분할하여 가짜 상관관성에 대한 의존성을 줄이고, 공유 특징 추출기를 가진 환경별 분류기를 학습하며, 분산 정규화기를 사용하여 환경에 무관한 안정적인 특징을 촉진하여 VQA 작업의 OOD 일반화를 향상시킨다.

ABSTRACT

Generalization beyond the training distribution is a core challenge in machine learning. The common practice of mixing and shuffling examples when training neural networks may not be optimal in this regard. We show that partitioning the data into well-chosen, non-i.i.d. subsets treated as multiple training environments can guide the learning of models with better out-of-distribution generalization. We describe a training procedure to capture the patterns that are stable across environments while discarding spurious ones. The method makes a step beyond correlation-based learning: the choice of the partitioning allows injecting information about the task that cannot be otherwise recovered from the joint distribution of the training data. We demonstrate multiple use cases with the task of visual question answering, which is notorious for dataset biases. We obtain significant improvements on VQA-CP, using environments built from prior knowledge, existing meta data, or unsupervised clustering. We also get improvements on GQA using annotations of "equivalent questions", and on multi-dataset training (VQA v2 / Visual Genome) by treating them as distinct environments.

연구 동기 및 목표

비전-언어 태스크에서 데이터셋 편향과 가짜 상관관계로 인한 열악한 OOD 일반화를 동기 부여하고 해결한다.
가짜 패턴이 다양한 환경과 신뢰할 수 있는 패턴이 안정적으로 남아 있는 학습 환경으로 데이터를 분할하는 방법을 제안한다.
공유 특징 추출기와 환경별 분류기를 다수로 학습하고 분산 정규화기를 사용하여 환경 간 불변성을 촉진한다.
VQA 관련 태스크에서 방법을 시연하며, 언어 편향에 대한 강건성(VQA-CP), 동등한 질문에 대한 불변성(GQA), 다중 데이터셋 학습을 포함한다.
하이퍼파라미터 및 분할 전략에 대한 실증 분석과 민감도 연구를 제공한다.

제안 방법

훈련 데이터를 서로 다른 E개의 상이한 환경으로 분할하여 환경 간 가짜 상관관계가 다양하고 신뢰할 수 있는 상관관계는 안정적으로 유지되도록 한다.
공유 특징 추출기 f_theta를 환경 간에 학습하고 각 환경에 대해 W_e 분류기를 분리하며, W_e를 공통값으로 이끌기 위한 분산 정규화기를 도입한다.
목적 함수를 최적화: 환경별 손실의 합 plus 페널티 lambda * Var_e(W_e)로 최소화하며, Var_e(W_e)는 환경별 분류기의 분산 척도이다.
테스트 시 평균화된 분류기 가중치로 예측: Phi*(x) = ˜_theta(x).
훈련 안정화를 위해 절대 분산 규제 또는 상대 분산 규제 형식을 채택하고, 예열(warm-up) 단계 후 교대 최적화(θ와 W_e를 번갈아 업데이트)도 선택적으로 사용한다.

실험 결과

연구 질문

RQ1환경을 어떻게 구성하여 가짜 상관관계가 다양하고 실제 태스크 신호는 안정적으로 유지되도록 partition할 수 있는가?
RQ2공유 특징 추출기와 환경별 분류기를 분산으로 정규화하는 방법이 OOD 일반화에 더 나은 불변 예측기를 학습하게 하는가?
RQ3다른 환경 구성 전략(참고: 정답 기반 질문 유형, 비감독적 클러스터링)이 VQA의 OOD 성능에 어떤 영향을 미치는가?
RQ4제안된 방법이 VQA-CP, 동등한 질문이 있는 GQA, 다중 데이터셋 VQA 설정에서 어떤 성능을 보이는가?
RQ5분산 규제 가중치와 최적화 방식에 얼마나 민감한가?

주요 결과

방법	검증 세트(Other)	테스트 세트(Other)
Baseline	54.74	43.33
환경: 무작위; 상대 분산, 대안 최적화 없음	53.34	43.51
환경: clustered questions; 상대 분산, 대안 최적화 없음	54.10	46.35
환경: 질문 그룹; 상대 분산, 대안 최적화 없음	53.87	47.60
+ 교대 최적화(0 웜업 에폭)	54.00	47.71
+ 교대 최적화(2 웜업 에폭)	53.90	47.82
+ 교대 최적화(4 웜업 에폭)	53.98	48.06
+ 교대 최적화(6 웜업 에폭)	53.86	47.38
분산 규제 없이	40.76	39.14
절대 분산 규제 사용	51.44	46.17

제안한 환경 기반 방법이 Baselines에 비해 VQA-CP에서 특히 ‘Other’ 질문에 대해 상당한 개선을 보임.
정답 질문 유형 환경을 사용하면 강한 이점을 얻고, 질문의 비지도 클러스터링도 주목할 만한 개선을 보이나 정답 유형 기반보다 다소 낮음.
분산 규제는 결정적이며, 상대 분산 규제가 절대 분산보다 약간 더 우수하고 교대 최적화 방식이 추가 이득을 제공함.
환경 partition을 무작위로 섞는 경우(임의 환경)에는 개선이 나타나지 않아 정보성이 높은 환경 구성의 필요성이 강조됨.
이 방법은 표준 VQA 분할에서도 경쟁력을 유지하며 앙상블을 보완할 수 있음; 개선은 OOD 일반화 작업(VQA-CP)에서 가장 두드러짐.
GQA에서 동등 질문 주석을 사용하면 강인성이 향상되고, 다중 데이터셋 VQA(VQA v2 / Visual Genome)에서 데이터셋을 개별 환경으로 다루면 작은 이득이 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.