QUICK REVIEW

[논문 리뷰] On Differentiating Parameterized Argmin and Argmax Problems with Application to Bi-level Optimization

Stephen Jay Gould, Basura Fernando|arXiv (Cornell University)|2016. 07. 19.

Advanced Optimization Algorithms Research참고 문헌 12인용 수 118

한 줄 요약

이 논문은 매개변수화된 argmin/argmax 문제에 대한 그래디언트 공식을 도출하고, 이를 제약 조건에 확장하며, 보조 최적화( bi-level optimization ) 맥락에서 예시를 통해 활용을 입증한다.

ABSTRACT

Some recent works in machine learning and computer vision involve the solution of a bi-level optimization problem. Here the solution of a parameterized lower-level problem binds variables that appear in the objective of an upper-level problem. The lower-level problem typically appears as an argmin or argmax optimization problem. Many techniques have been proposed to solve bi-level optimization problems, including gradient descent, which is popular with current end-to-end learning approaches. In this technical report we collect some results on differentiating argmin and argmax optimization problems with and without constraints and provide some insightful motivating examples.

연구 동기 및 목표

상위 수준의 목적이 하위 수준의 argmin/argmax 문제의 해에 의존하는 bi-level 최적화를 동기로 삼는다.
상위 매개변수에 대한 하위 수준 해를 미분하기 위한 일阶(1차) 그래디언트 기반 방법을 제공한다.
하위 수준 문제의 제약(등식 및 부등식 제약)을 포함하여 미분 결과를 확장한다.
동기 부여가 되는 예시(소프트맥스 분류기 포함)를 통해 실계산을 설명한다.
gradient-based bi-level 학습의 실용적 고려사항 및 해석적 특성을 논의한다.

제안 방법

g(x)=argmin_y f(x,y)인 경우의 그래디언트 공식을 제시하고 증명하며, scalar x에 대해서 dg/dx = -f_YY(x,g(x))^{-1} f_XY(x,g(x))를 얻고, 벡터 x에 대해서는 n×n 해시안과 교차 도함수를 이용한 일반화를 수행한다.
적절한 조건 하에서 동일한 도함수 형태로 argmax에의 확장을 보인다.
선형 등식 제약이 있는 경우로 결과를 확장하여 g'(x) = -F(F^T f_Y Y F)^{-1}F^T f_XY를 얻고, 억 대수(Lagrangian) 기반 표현들로도 대안을 제공한다.
로그-장벽 근사를 통한 선형 부등식 제약 처리 방식으로, 배리어 항을 포함하는 그래디언트 근사치를 얻고 이를 통해 미분 계산을 수행한다.
bi-level 설정에서 실무적으로 사용할 수 있는 무제약/등식 제약/부등식 제약의 유도 포함 관련 보조정리를 제공한다.
gradient 계산을 설명하기 위한 예시와 직관적 설명을 포함하여 (평균 예시, 다중 극값 예시, 소프트맥스 분류기) 그래디언트 계산을 입증한다.

실험 결과

연구 질문

RQ1하위 수준의 argmin/argmax 해의 outer-level 매개변수에 대한 민감도(그래디언트)를 어떻게 계산할 수 있는가?
RQ2제약이 있는 하위 수준 문제(등식 및 부등식)로 확장되는가?
RQ3바람직한 지침과 예시를 통해 이 미분들을 bi-level 최적화 및 end-to-end 학습에 어떻게 적용하는가?
RQ4하위 목표의 단조 변환은 정지점과 그 그래디언트에 영향을 주는가?
RQ5소프트맥스 분류기나 하이퍼파라미터 최적화와 같은 그래디언트 기반의 bi-level 학습에 이들 결과를 어떻게 활용할 수 있는가?

주요 결과

매개변수화된 argmin/argmax에 대한 스칼라 및 벡터 그래디언트 공식을 도출: dg/dx = -f_YY^{-1} f_XY (적절한 해시안에 대해).
벡터 x 및 다중 매개변수에 대한 확장을 컴팩트한 매트릭스 형태로 제공.
선형 등식 제약이 있는 경우에서의 제약의 해공간의 영공간을 통한 투영을 포함하는 g'(x)와 대안적인 Lagrangian 기반 표현을 제시.
로그-장벽 근사치를 통한 부등식 제약 처리 및 배리어 매개변수가 커질수록 무제약 결과로 수렴하는 그래디언트 표현.
소프트맥스 분류기 가능도 지형에의 응용을 시연하며, 모델 매개변수에 대한 argmax 특징 벡터의 그래디언트를 포함.
내부 목표의 단조 변환에 대한 정지점의 불변성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.