Skip to main content
QUICK REVIEW

[논문 리뷰] Learning in High Dimension Always Amounts to Extrapolation

Randall Balestriero, Jerome Pesenti|arXiv (Cornell University)|2021. 10. 18.
Sparse and Compressive Sensing Techniques참고 문헌 23인용 수 26
한 줄 요약

본 논문은 고차원 공간( d > 100 )에서 새로운 샘플이 거의 확실하게 학습 데이터의 볼록 껍질 밖에 놓여 있게 되며, 이는 보간이 매우 드물고 외삽이 지배적임을 시사하고, 보간과 일반화 간의 기존 연결고에 도전한다.

ABSTRACT

The notion of interpolation and extrapolation is fundamental in various fields from deep learning to function approximation. Interpolation occurs for a sample $x$ whenever this sample falls inside or on the boundary of the given dataset's convex hull. Extrapolation occurs when $x$ falls outside of that convex hull. One fundamental (mis)conception is that state-of-the-art algorithms work so well because of their ability to correctly interpolate training data. A second (mis)conception is that interpolation happens throughout tasks and datasets, in fact, many intuitions and theories rely on that assumption. We empirically and theoretically argue against those two points and demonstrate that on any high-dimensional ($>$100) dataset, interpolation almost surely never happens. Those results challenge the validity of our current interpolation/extrapolation definition as an indicator of generalization performances.

연구 동기 및 목표

  • 고차원 공간(>100)에서 보간이 거의 발생하지 않음을 이론적으로와 경험적으로 증명한다.
  • 데이터 매니폴드의 고유 차원과 무작위성 데이터에도 불구하고 현재 모델이 항상 외삽 영역에서 작동한다는 것을 보인다.
  • 데이터셋 규모, 주변/볼록 껍질 차원, 임베딩이 보간 확률에 어떻게 영향을 미치는지 조사한다.
  • 현대 ML에서 보간/외삽이 일반화와 어떻게 연결되는지에 대한 시사점을 검토한다.
  • 고차원 데이터에 대한 보간적합의 기하학적 정의에 대한 지침을 제공한다.

제안 방법

  • 원시( Theoretical ) 결과(정리 1)로부터 d차원 볼의 균일한 i.i.d. 샘플에서 새로운 샘플이 볼록 껍질 안에 있게 될 확률은 N이 d에 대해 기하급수적으로 증가하지 않는 한 0으로 수렴한다.
  • 합성 데이터에서 다양한 주변 차원 및 볼록 껍질 차원에서의 보간 확률과 실제 데이터 세트(MNIST, CIFAR, ImageNet)에서의 차원 축소 및 임베딩 하에서의 보간 확률을 평가하는 실험.
  • 내재 매니폴드 차원, 볼록 껍질 차원 d*, 관찰 차원을 변화시키며 차원이 커질수록 보간 확률이 어떻게 감소하는지(샘플 크기와 함께) 연구한다.
  • 임베딩 공간 및 차원 축소 관점에서 보간이 잠재 표현이나 일반적 축소 후에도 지속되는지 테스트한다.
  • 고차원에서의 보간/외삽 확률을 특성화하기 위해 기존 결과(예: Valtr의 공식, Buchta의 극한, Kabluchko & Zaporozhets의 비점근성)와의 이론적 종합을 수행한다.

실험 결과

연구 질문

  • RQ1현실적인 데이터 세트 규모에서 고차원에서 새로운 샘플의 보간 확률이 소멸하는가?
  • RQ2고유 차원, 주변 차원, 그리고 데이터가 포함된 가장 작은 아핀 부분공간인 볼록 껍질 차원이 보간 가능성에 어떠한 영향을 주는가?
  • RQ3일반적인 임베딩 및 차원 축소 기법이 보간/외삽 정보를 보존하는가?
  • RQ4고차원 보간/외삽 특성이 모델 일반화에 어떤 함의를 가지는가?
  • RQ5알려진 이론적 결과가 실제 데이터 분포 및 임베딩에 확장될 수 있는가?

주요 결과

  • 보간 확률은 차원에 따라 지수적으로 감소하며 일정한 보간 확률을 유지하려면 기하급수적으로 많은 샘플이 필요하다.
  • 데이터를 포함하는 가장 작은 아핀 부분공간인 볼록 궤 차원 d*가 보간 확률을 내부 매니폴드 차원보다 더 크게 결정한다; 고정된 d*로 주변 차원을 증가시키는 것은 보간 유지에 도움이 되지 않는다.
  • 실제 데이터 세트(MNIST, CIFAR, ImageNet) 및 다양한 임베딩에서 차원이 커질수록 테스트 샘플이 학습 데이터에 대해 외삽 영역에 속하는 경향이 있어 실무에서 외삽이 지배적임을 시사한다.
  • 차원 축소 방법 및 다수의 임베딩은 보간/외삽 구분을 지워 데이터 기하에 대한 해석을 오도할 수 있다.
  • Johnson–Lindenstrauss 유형의 축소는 N이 차원에 선형으로만 증가할 때 보간 확률을 보존할 수 없으므로, 실용적 데이터 규모에서의 고차원 보간은 가능성이 낮다를 강화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.