Skip to main content
QUICK REVIEW

[논문 리뷰] Distributed estimation of the inverse Hessian by determinantal averaging

Michał Dereziński, Michael W. Mahoney|arXiv (Cornell University)|2019. 05. 28.
Statistical Mechanics and Entropy참고 문헌 27인용 수 3
한 줄 요약

이 논문은 분산된 헤시안 역행렬 추정에서의 역행렬 편향을 보정하기 위한 새로운 방법인 결정성 평균화(determinantal averaging)를 제안한다. 각 국소적 역행렬 추정치의 행렬식을 사용하여 재가중하고 평균을 내는 방식으로, 점차적 일致성(asymptotic consistency)을 달성하여 분할 수가 증가함에 따라 진짜 뉴턴 단계로 수렴함을 보장한다. 주요 기여는 유한 샘플 농도 보장이 있는 이론적으로 타당한, 통신 효율적인 분산 뉴턴 방법이다.

ABSTRACT

In distributed optimization and distributed numerical linear algebra, we often encounter an inversion bias: if we want to compute a quantity that depends on the inverse of a sum of distributed matrices, then the sum of the inverses does not equal the inverse of the sum. An example of this occurs in distributed Newton's method, where we wish to compute (or implicitly work with) the inverse Hessian multiplied by the gradient. In this case, locally computed estimates are biased, and so taking a uniform average will not recover the correct solution. To address this, we propose determinantal averaging, a new approach for correcting the inversion bias. This approach involves reweighting the local estimates of the Newton's step proportionally to the determinant of the local Hessian estimate, and then averaging them together to obtain an improved global estimate. This method provides the first known distributed Newton step that is asymptotically consistent, i.e., it recovers the exact step in the limit as the number of distributed partitions grows to infinity. To show this, we develop new expectation identities and moment bounds for the determinant and adjugate of a random matrix. Determinantal averaging can be applied not only to Newton's method, but to computing any quantity that is a linear tranformation of a matrix inverse, e.g., taking a trace of the inverse covariance matrix, which is used in data uncertainty quantification.

연구 동기 및 목표

  • 행렬 역행렬의 분산 추정에서, 국소적 역행렬의 평균이 평균의 역행렬과 일치하지 않는다는 역행렬 편향을 해결하기 위해.
  • 노드 간에 큰 행렬을 결합하지 않고도 통신 효율적인 분산 뉴턴 방법을 개발하기 위해.
  • 행렬의 행렬식에 기반한 가중 평균을 사용한 분산 뉴턴 단계의 수렴에 대한 이론적 보장을 제공하기 위해.
  • 유한 샘플 분석을 가능하게 하는 랜덤 행렬의 행렬식과 수반행렬에 대한 새로운 농도 부등식을 수립하기 위해.

제안 방법

  • 국소적 역행렬 헤시안 추정치의 가중 평균인 결정성 평균화를 제안하며, 이때 가중치는 각 국소적 헤시안 추정치의 행렬식이다.
  • 중요한 항등식 H⁻¹ = E[det(Ĥ)Ĥ⁻¹] / E[det(Ĥ)] 를 사용하여 가중치 부여 방식을 정당화한다.
  • 강한 수렴의 법칙을 적용하여 가중 평균이 거의 확실히 진짜 역행렬 헤시안으로 수렴함을 보여준다.
  • 질량 1, 정부분정의 행렬에 의한 편향이 가해진 경우에 대해 랜덤 행렬의 행렬식과 수반행렬에 대한 새로운 행렬 농도 경계를 유도한다.
  • 랜덤 행렬의 행렬식에 대한 새로운 모멘트 경계를 활용하여 결정성 평균의 수렴 속도에 대한 고확률 경계를 수립한다.
  • 뉴턴 방법에 적용하기 위해 각 국소 단계를 국소 헤시안 행렬식 비례 가중치로 가중 평균하여 뉴턴 단계를 추정한다.

실험 결과

연구 질문

  • RQ1원칙적인 가중치 부여 방식을 사용하여 분산된 행렬 역행렬 추정에서의 역행렬 편향을 보정할 수 있는가?
  • RQ2결정성 평균화는 분산 최적화에서 역행렬 헤시안에 대해 점차적 일치 추정기인가?
  • RQ3역행렬의 결정성 평균에 대해 어떤 유한 샘플 농도 보장을 확보할 수 있는가?
  • RQ4이 방법은 뉴턴 방법을 초월하여 역행렬의 선형 기능(예: 불확실성 정량화를 위한 공분산의 역행렬의 추정)에 적용 가능한가?
  • RQ5랜덤 행렬의 행렬식과 수반행렬의 수렴 보장을 확보하기 위해 어떤 새로운 모멘트 경계가 필요한가?

주요 결과

  • 결정성 평균화는 분할 수가 무한으로 갈수록 정확한 뉴턴 단계로 수렴하는 첫 번째 알려진 분산 뉴턴 단계이다.
  • 이 방법은 고확률 수렴을 달성한다: 확률 1−δ 이상에서, 역행렬 추정치의 결정성 평균은 진짜 역행렬 헤시안의 (1±η/√m) 범위 내에 존재한다.
  • 적절한 헤시안 및 샘플링 파rameter 조건 하에서, 뉴턴 단계의 유한 샘플 오차 경계는 O(η/√m)이다. 여기서 m은 분산된 머신의 수이다.
  • 이 논문은 랜덤 행렬의 행렬식과 수반행렬에 대한 새로운 모멘트 경계를 수립하였으며, 이는 랜덤 행렬 이론에서 별도의 관심사가 된다.
  • 각 노드가 국소적 역행렬 헤시안 추정치를 계산하고 오직 O(d) 개의 매개변수만 전송함으로써, 통신 효율적인 분산 최적화를 가능하게 한다.
  • 이 방법은 추정의 추정치 등 역행렬의 임의의 선형 기능에 일반화 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.