[논문 리뷰] Limitations of the Empirical Fisher Approximation for Natural Gradient Descent
경험적 피셔는 일반적으로 피셔나 해시안과 같은 2차 정보를 포착하지 못하며, 전처치(preconditioning)로의 사용은 업데이트를 왜곡할 수 있다; 논문은 진정한 피셔의 사용을 옹호하고, 실용적 EF 기반 방법에 대한 대안 설명으로 분산 적응을 논의한다.
Natural gradient descent, which preconditions a gradient descent update with the Fisher information matrix of the underlying statistical model, is a way to capture partial second-order information. Several highly visible works have advocated an approximation known as the empirical Fisher, drawing connections between approximate second-order methods and heuristics like Adam. We dispute this argument by showing that the empirical Fisher---unlike the Fisher---does not generally capture second-order information. We further argue that the conditions under which the empirical Fisher approaches the Fisher (and the Hessian) are unlikely to be met in practice, and that, even on simple optimization problems, the pathologies of the empirical Fisher can have undesirable effects.
연구 동기 및 목표
- 경험적 피셔, 피셔, 일반화 가우스-뉴턴(GGN) 행렬 간의 관계를 명확히 한다.
- 경험적 피셔가 2차 정보를 신뢰할 수 있게 포착하지 못함을 보여준다.
- 경험적 피셔가 피셔를 근사하는 조건과, 이러한 조건이 실제로는 거의 충족되지 않는 이유를 설명한다.
- 간단한 문제에서도 EF 전처치의 이상현상과 바람직하지 않은 효과를 시연한다.
- GGN 정의에 대한 수정안을 제안하고, EF 기반 방법의 대안 설명으로 분산 적합을 논의한다.
제안 방법
- 자연 그래디언트 하강(NGD)과 일반화 가우스-뉴턴(GGN)의 정의를 검토한다.
- 피셔(Eq. 2)와 경험적 피셔(Eq. 3)를 비교하고 해석을 논의한다.
- GGN 구성의 분할을 분석하고 유용한 곡률 정보를 보장하기 위한 명확화(정의 1)를 제안한다.
- EF가 기울기 필드를 왜곡하고 최적점에서 멀리 떨어진 곳에서 스케일링을 왜곡하는 반례를 제시한다.
- EF가 최소점 근처에서 피셔로 수렴할 수 있는 조건을 논의한다(Prop. 2 및 관련 논의).
- EF 기반 방법의 실용적 성공에 대한 대안 설명으로 분산 적합 관점(Eq. 19)을 도입한다.
실험 결과
연구 질문
- RQ1경험적 피셔가 피셔와 해 Hessian을 일관되게 근사하는가?
- RQ2최적점 근처에서 EF가 피셔로 수렴하는 조건은 무엇이며, 있다면 어떤가?
- RQ3경험적 피셔가 그래디언트 업데이트를 왜곡할 수 있는가, 그리고 이것이 간단한 문제에서 어떻게 나타나는가?
- RQ4일반화 가우스-뉴턴 정의를 수정하면 EF의 해석이 어떻게 개선되는가?
- RQ5곡률이 아니라 분산 적응으로 EF 기반 방법의 실용적 성공을 설명할 수 있는가?
주요 결과
- 경험적 피셔는 일반화된 가우스-뉴턴 행렬의 형식적 정의를 따른다 그러나 선택된 분할은 유용한 2차 정보를 유지하지 못할 수 있다.
- 경험적 피셔와 피셔 사이의 관계는 강하고 실현 가능성이 낮은 가정(실현 가능한 모델과 충분한 데이터) 아래에서만 존재한다.
- 최적점에서 멀리 떨어진 위치에서 경험적 피셔로의 전처치는 기울기 방향과 크기를 왜곡할 수 있으며 때로 심각하게 왜곡한다.
- EF는 기울기 크기에 반비례하는 업데이트를 초래할 수 있어 스텝 크기 조정이 복잡해진다.
- 분산 적응이 곡률 적응이 아니라 EF 기반 방법의 실용적 성공에 대한 대안 설명을 제공한다.
- 진정한 피셔는 더 안전하고 일반적으로 선호되는 곡률 행렬로 제시된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.