QUICK REVIEW

[논문 리뷰] A mathematical model for automatic differentiation in machine learning

Jérôme Bolte, Edouard Pauwels|arXiv (Cornell University)|2020. 06. 03.

Computability, Logic, AI Algorithms참고 문헌 39인용 수 24

한 줄 요약

이 논문은 기계학습에서 자동미분(AD)을 위한 수학적 프레임워크를 제안하며, 비연속 함수에서의 AD의 불안정성을 해결하기 위해 선택 도함수(selection derivatives)와 비연속 미적분을 도입한다. AD에서 발생하는 인위적 임계점이 함수의 구조가 아니라 프로그램 표현 방식에 기인함을 보이며, 확률적 최적화 방법이 이러한 허구적 점들을 확률 1로 피할 수 있음을 증명함으로써 실무에서 AD를 위한 엄밀한 운영 모델을 제공한다.

ABSTRACT

Automatic differentiation, as implemented today, does not have a simple mathematical model adapted to the needs of modern machine learning. In this work we articulate the relationships between differentiation of programs as implemented in practice and differentiation of nonsmooth functions. To this end we provide a simple class of functions, a nonsmooth calculus, and show how they apply to stochastic approximation methods. We also evidence the issue of artificial critical points created by algorithmic differentiation and show how usual methods avoid these points with probability one.

연구 동기 및 목표

현대 기계학습에서 비연속, 비볼록 함수에 대해 안정적인 수학적 이론이 부족한 자동미분(AD)의 문제를 해결하기 위해.
AD 결과와 고전적 미분 간의 괴리를 체계화하여, AD가 함수가 아니라 프로그램 표현에 작용함을 보여주기 위해.
기계학습에서 흔히 나타나는 비연속, 비볼록 함수의 새로운 클래스와 이를 위한 미분 도구(선택 도함수)를 도입하여 실질적 AD 행동을 포괄하는 미적분학을 제안하기 위해.
확률적 최적화 방법이 AD에 의해 생성된 인위적 임계점들을 확률 1로 피할 수 있음을 증명하기 위해.
PyTorch 및 TensorFlow와 같은 딥러닝 프레임워크에서 AD를 위한 엄밀한 운영 모델을 제공하기 위해.

제안 방법

프로그램을 그 수학적 함수로 매핑하는 표준 사상 𝒫 → 𝒇를 도입하여, AD가 함수의 동치성보다는 프로그램 구조에 작용함을 보여준다.
기계학습에서 흔한 비연속, 비볼록 함수의 클래스에 대해 선택 도함수를 정의함으로써 안정적인 미적분학을 가능하게 한다.
정의 가능한 집합과 분할 이론을 사용하여 인위적 임계점 또는 비가속성 발생 집합의 차원을 분석한다.
바이어의 카테고리 정리와 측도 이론적 추론을 적용하여, 인위적 임계점으로 이르는 초기 조건의 집합이 희박하고 측도가 0임을 보인다.
유계성 조건 하에서 선택 도함수를 사용한 확률적 하향도함수 수열이 클락 임계점으로 수렴함을 확립한다.
거의 모든 초기 조건에 대해 AD 기반 최적화가 생성하는 수열이 평균이 0인 노이즈를 가진 확률적 하향도함수 수열과 동일시됨을 증명한다.

실험 결과

연구 질문

RQ1왜 자동미분이 수학적으로 동치인 프로그램들(예: ReLU의 다양한 구현)에 대해 일관되지 않은 도함수를 산출하는가?
RQ2비연속 함수에 대해 알고리즘적 미분을 일반화할 수 있는 수학적 연산자를 정의할 수 있는가? 특히 비가속성 점에서 하향도함수 포함 성질을 유지할 수 있는가?
RQ3AD가 비연속 설정에서 도입하는 인위적 임계점의 기하학적 및 측도 이론적 성격은 무엇인가?
RQ4실제로 확률적 최적화 방법은 AD에 의해 생성된 인위적 임계점을 어떻게 피하는가?
RQ5선택 도함수는 딥러닝 프레임워크에서 실제 AD 행동을 모델링할 수 있는 안정적이고 운영적으로 유의미한 미적분학을 제공할 수 있는가?

주요 결과

정리 1에 의해 증명된 linelike, 프로그램에 의존하는 도함수 값으로 인해 알고리즘적 미분은 함수에 대해 일관된 미분 연산자로 표현될 수 없다.
인위적 임계점은 함수의 구조가 아니라 프로그램 표현에 기인하며, 측도가 0이자 위상적으로 희박한 집합에 국한된다.
인위적 임계점 또는 비가속성으로 이르는 초기 조건의 집합은 내부가 없는 닫힌 집합이며, 르베그 측도가 0이다.
거의 모든 초기 조건에 대해 AD 기반 최적화가 생성하는 수열은 평균이 0인 노이즈를 가진 확률적 하향도함수 수열과 동치이다.
유계성 조건 하에서 확률적 최적화 방법은 거의 확실히 클락 임계점으로 수렴함을 보여, AD의 허구적 행동에도 불구하고 실무에서의 강건성을 입증한다.
선택 도함수는 기계학습에서 비연속, 비볼록 함수에 대해 수학적으로 타당하고 운영적으로 관련성이 있는 미적분학을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.