Skip to main content
QUICK REVIEW

[논문 리뷰] The Pitfalls of Simplicity Bias in Neural Networks

Harshay Shah, Kaustav Tamuly|arXiv (Cornell University)|2020. 06. 13.
Adversarial Robustness in Machine Learning참고 문헌 81인용 수 88
한 줄 요약

본 논문은 SGD로 학습된 신경망에서 Simplicity Bias (SB)를 형식화하고, 네트워크가 가장 단순한 예측 특징에 과도하게 의존하게 되어 취약성 증가, 약한 강건성, 심지어 일반화 저하를 초래할 수 있음을 보이며, 다양한 구조 및 학습 방법에 걸친 이러한 함정을 입증하는 데이터셋과 실험을 제공합니다.

ABSTRACT

Several works have proposed Simplicity Bias (SB)---the tendency of standard training procedures such as Stochastic Gradient Descent (SGD) to find simple models---to justify why neural networks generalize well [Arpit et al. 2017, Nakkiran et al. 2019, Soudry et al. 2018]. However, the precise notion of simplicity remains vague. Furthermore, previous settings that use SB to theoretically justify why neural networks generalize well do not simultaneously capture the non-robustness of neural networks---a widely observed phenomenon in practice [Goodfellow et al. 2014, Jo and Bengio 2017]. We attempt to reconcile SB and the superior standard generalization of neural networks with the non-robustness observed in practice by designing datasets that (a) incorporate a precise notion of simplicity, (b) comprise multiple predictive features with varying levels of simplicity, and (c) capture the non-robustness of neural networks trained on real data. Through theory and empirics on these datasets, we make four observations: (i) SB of SGD and variants can be extreme: neural networks can exclusively rely on the simplest feature and remain invariant to all predictive complex features. (ii) The extreme aspect of SB could explain why seemingly benign distribution shifts and small adversarial perturbations significantly degrade model performance. (iii) Contrary to conventional wisdom, SB can also hurt generalization on the same data distribution, as SB persists even when the simplest feature has less predictive power than the more complex features. (iv) Common approaches to improve generalization and robustness---ensembles and adversarial training---can fail in mitigating SB and its pitfalls. Given the role of SB in training neural networks, we hope that the proposed datasets and methods serve as an effective testbed to evaluate novel algorithmic approaches aimed at avoiding the pitfalls of SB.

연구 동기 및 목표

  • SB를 연구하기 위한 특징의 단순성과 예측력을 정밀하고 조정 가능한 개념으로 정의한다.
  • 단순한 예측 특징과 복잡한 예측 특징을 결합한 모듈식 합성 및 이미지 기반 데이터셋을 설계한다.
  • 아키텍처와 최적화 알고리즘 전반에 걸쳐 극단적인 SB를 이론적으로와 실험적으로 입증한다.
  • SB를 비강건성, 분포 변화, 적대적 취약성과 연관시키고, 일반적으로 제안되는 완화책을 평가한다.

제안 방법

  • 판단 경계에서 선형 조각의 최소 수로 특징의 단순성을 형식적으로 정의한다.
  • 단순한 특징과 복잡한 특징을 결합한 다차원 합성 데이터셋 (예: LMS-k, L̂MS-k, MS-(5,7), MS-5) 및 MNIST-CIFAR 이미지를 구성한다.
  • SGD로 학습된 하나의 은닉층 ReLU 네트워크가 LSN 데이터셋에서 SB를 보임을 증명한다.
  • 다양한 옵티마이저와 규제 방법에서 FCN, CNN, GRU 모델 전반에 걸쳐 SB를 경험적으로 보인다.
  • SB 하에서의 강건성, 신뢰도 추정 및 일반화 분석을 분석하고, UAP 전이 가능성 분석을 포함한다.

실험 결과

연구 질문

  • RQ1여러 개의 예측 특징이 존재할 때 SGD로 학습된 모델이 가장 단순한 예측 특징에 편향을 보이는가?
  • RQ2아키텍처 및 학습 설정 전반에서 SB의 극단성은 어느 정도이며, 단순 특징의 여지가 더 낮아져도 지속되는가?
  • RQ3분포 변화나 적대적 요동에 대한 강건성, 신뢰도 추정 및 일반화에 대한 SB의 시사점은 무엇인가?
  • RQ4앙상블이나 적대적 학습이 SB와 그 함정을 완화하는가?

주요 결과

  • SB는 극단적일 수 있다: 신경망이 가장 단순한 특징에 전적으로 의존하고 복잡한 예측 특징을 무시할 수 있다.
  • 극단적인 SB는 적대적 섭동 및 분포 변화에 대한 강건성과의 저하와 상관관계가 있다.
  • SB는 단순한 특징이 복잡한 특징보다 예측력이 낮을 때 일반화에도 악영향을 줄 수 있다.
  • 제시된 데이터셋에서 앙상블과 적대적 학습이 SB를 신뢰성 있게 완화하지는 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.