Skip to main content
QUICK REVIEW

[논문 리뷰] Understanding the Curse of Unrolling

Sheheryar Mehmood, Florian Knöll|arXiv (Cornell University)|2026. 02. 23.
Machine Learning and Data Classification인용 수 0
한 줄 요약

논문은 알고리즘 언롤링에서 파생되는 도함수 반복의 비점근(non-asymptotic) 분석을 제공하고, 언롤링의 저주를 이끄는 요인을 식별하며, 절단(truncation)이나 워밍 스타트(warm-starting)가 이를 완화함을 보이고, 이를 뒷받침하는 실험을 제시한다.

ABSTRACT

Algorithm unrolling is ubiquitous in machine learning, particularly in hyperparameter optimization and meta-learning, where Jacobians of solution mappings are computed by differentiating through iterative algorithms. Although unrolling is known to yield asymptotically correct Jacobians under suitable conditions, recent work has shown that the derivative iterates may initially diverge from the true Jacobian, a phenomenon known as the curse of unrolling. In this work, we provide a non-asymptotic analysis that explains the origin of this behavior and identifies the algorithmic factors that govern it. We show that truncating early iterations of the derivative computation mitigates the curse while simultaneously reducing memory requirements. Finally, we demonstrate that warm-starting in bilevel optimization naturally induces an implicit form of truncation, providing a practical remedy. Our theoretical findings are supported by numerical experiments on representative examples.

연구 동기 및 목표

  • 언록링의 저주가 나타나는 비점근적 기원을 설명한다.
  • 언롤 differentiation 중 도함수 오차에 영향을 주는 알고리즘 요인을 식별한다.
  • 초기 반복의 절단이 저주를 줄이고 메모리 사용을 감소시키는 방법을 보인다.
  • 이중 수준 최적화에서 워밍 스타트가 암묵적 절단을 유도함을 보인다.
  • 이론을 검증하고 실용적 해결책을 제시하는 수치 실험을 제공한다.

제안 방법

  • 내부 문제를 고정점 반복으로 모델링하고 매핑 A를 분석하며 암시적 미분(implicit differentiation)을 통해 도함수를 연구한다.
  • 정방향 및 역방향 모드 자동미분(forward 및 reverse mode AD)을 이용해 도함수 시퀀스 D x^(k)(u)와 그 오차에 대한 비점근적 경계를 도출한다.
  • 도함수 계산을 나중의 반복에서 시작하는 절단(후행 시작) 스킴을 도입하고 분석한다.
  • 절단된 도함수 시퀀스의 수렴을 증명하고 저주 항을 상한한다.
  • 고정된 계산 예산 하에서 내부 문제 해결과 미분 사이의 자원 배분을 논의한다.
  • 암묵적 절단 메커니즘으로서 워밍 스타트를 탐구하고 기존 관행과의 관련성을 논의한다.
Figure 1 : Iterate $\bm{x}^{(k)}(\bm{u})$ vs derivative $D\bm{x}^{(k)}(\bm{u})$ error plot for gradient descent applied to $f(\bm{x},u)\coloneqq\|A\bm{x}-\bm{b}\|^{2}/2+u\|\bm{x}\|^{2}/2$ . Unlike $\bm{x}^{(k)}(\bm{u})$ , $D\bm{x}^{(k)}(\bm{u})$ initially drifts away from its limit before eventually
Figure 1 : Iterate $\bm{x}^{(k)}(\bm{u})$ vs derivative $D\bm{x}^{(k)}(\bm{u})$ error plot for gradient descent applied to $f(\bm{x},u)\coloneqq\|A\bm{x}-\bm{b}\|^{2}/2+u\|\bm{x}\|^{2}/2$ . Unlike $\bm{x}^{(k)}(\bm{u})$ , $D\bm{x}^{(k)}(\bm{u})$ initially drifts away from its limit before eventually

실험 결과

연구 질문

  • RQ1도함수 반복이 언롤링된 미분에서 왜 초기에 실제 야코비안에서 벗어나게 되는가?
  • RQ2절단과 워밍 스타트가 도함수 반복의 비점근적 행동에 어떤 영향을 미치는가?
  • RQ3언롤된 미분에서 계산, 메모리, 정확도 간의 트레이드오프를 어떻게 정량화할 수 있는가?
  • RQ4절단되거나 워밍 스타트된 미분이 실제 야코비안을 회복하거나 근사하는 조건은 무엇인가?
  • RQ5앞방향과 역방향 모드 AD가 언롤링 반복이 존재하는 상황에서 도함수 정보를 어떻게 전달하는가?

주요 결과

  • 도함수 반복은 실제 야코비안으로 수렴하기 전에 비점근적이고 초기 오차가 증가하는 경향을 보일 수 있다.
  • 수렴 속도 및 라이프치츠 상수에 의해 지배되는 수축율을 갖는 증가-후 감소하는 항을 포착하는 경계가 존재한다는 것을 보여준다.
  • 도함수 계산에서 초기 반복을 절단하면 저주를 완화하고 메모리 사용을 줄일 수 있다.
  • 이중 수준 최적화에서 워밍 스타트는 고정점 근처에서 시작함으로써 도함수 경로를 암묵적으로 절단하는 실용적 해결책을 제공한다.
  • 명시적 절단 경계는 지연된 도함수 계산이 저주를 약화시키는 방식을 정량화하며 절단 스킴에 대한 수렴 보장을 제공한다.
  • 대표적인 문제에 대한 실험이 이론적 발견을 뒷받침한다.
Figure 2 : Error evolution of $e^{(k)}(\bm{u})$ , $\dot{e}^{(k)}(\bm{u})$ , and $\bar{e}^{(k)}(\bm{u})$ generated by gradient descent applied to $f(\bm{x},u)\coloneqq\|A\bm{x}-\bm{b}\|^{2}/2+u\|\bm{x}\|^{2}/2$ . The dashed lines denote the bounds given in ( 8 ) and ( 19 ). The vertical lines denote
Figure 2 : Error evolution of $e^{(k)}(\bm{u})$ , $\dot{e}^{(k)}(\bm{u})$ , and $\bar{e}^{(k)}(\bm{u})$ generated by gradient descent applied to $f(\bm{x},u)\coloneqq\|A\bm{x}-\bm{b}\|^{2}/2+u\|\bm{x}\|^{2}/2$ . The dashed lines denote the bounds given in ( 8 ) and ( 19 ). The vertical lines denote

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.