QUICK REVIEW

[논문 리뷰] Learning with Differentiable Perturbed Optimizers

Quentin Berthet, Mathieu Blondel|arXiv (Cornell University)|2020. 02. 20.

Metaheuristic Optimization Algorithms Research참고 문헌 4인용 수 45

한 줄 요약

확률적 교란을 통해 이산 최적화를 연 differentiable 일반 방법 제시, 엔드 투 엔드 학습 가능 및 Fenchel-Young 손실과의 연계, 랭킹 및 최단 경로 응용.

ABSTRACT

Machine learning pipelines often rely on optimization procedures to make discrete decisions (e.g., sorting, picking closest neighbors, or shortest paths). Although these discrete decisions are easily computed, they break the back-propagation of computational graphs. In order to expand the scope of learning problems that can be solved in an end-to-end fashion, we propose a systematic method to transform optimizers into operations that are differentiable and never locally constant. Our approach relies on stochastically perturbed optimizers, and can be used readily together with existing solvers. Their derivatives can be evaluated efficiently, and smoothness tuned via the chosen noise amplitude. We also show how this framework can be connected to a family of losses developed in structured prediction, and give theoretical guarantees for their use in learning tasks. We demonstrate experimentally the performance of our approach on various tasks.

연구 동기 및 목표

정렬, 최단 경로 등 이산 해를 포함하는 파이프라인에서 엔드 투 엔드 미분 가능성 활성화.
미분 가능하고 비상수 출력을 제공하는 체계적 교란 기반 스무딩 도입.
구조화된 예측에 대한 이론적 보장과 Fenchel-Young 손실과의 연결 확립.
이중 확률적 최적화를 가진 실용적이고 병렬화 가능한 학습 프레임워크 제공.
랭킹 및 최단 경로 예측과 같은 작업에서 효과 입증 및 소프트웨어 공개.

제안 방법

입력 θ를 임의 잡음 εZ로 교란하고 교란된 최대화 해 y*_ε(θ)를 연구한다.
교란된 최대 F_ε(θ)=E[F(θ+εZ)]를 정의하고 y*_ε(θ)=∇_θF_ε(θ)임을 보인다.
F_ε 와 y*_ε의 도함수가 간단한 기대값으로 표현되어 몬테 카를로 추정이 가능함을 보인다.
Ω=(F_ε)^*와 함께 Fenchel 쌍별 이완을 통해 정규화된 최적화와 y*_ε를 연관시키고 Fenchel-Young 손실과의 연결을 보인다.
이 손실로 학습하기 위한 이중 확률적 학습 방식 도입, 그래디언트를 근사하기 위해 몬테 카를로 샘플 사용.
샘플링된 교란을 통해 원래 LP를 해결하여 흑박스 미분으로 구현하는 실용적 구현 개요.

실험 결과

연구 질문

RQ1확률적 교란을 사용하여 원칙적이고 해결사와 무관하게 이산 최적화를 미분 가능하게 만들 수 있는가?
RQ2교란된 최대화 해의 그래디언트와 야코비안(Jacobians)을 기대값 또는 몬테 카를로 추정을 통해 어떻게 효율적으로 계산할 수 있는가?
RQ3이 교란 프레임워크에서 Fenchel-Young 손실은 자연스럽게 어떻게 등장하며 어떻게 최적화할 수 있는가?
RQ4교란 기반 방법이 랭킹 및 최단 경로와 같은 구조화된 예측 작업에서 좋은 성능을 보이는가?

주요 결과

교란된 최대화 해 y*_ε(θ)는 ε>0일 때 θ에 대해 미분 가능하며 제로가 아닌 야코비안을 가진다.
F_ε 와 y*_ε의 도함수는 잡음이 있는 입력에 대한 간단한 기대값으로 주어져 효율적 계산이 가능하다.
볼록한 Fenchel-Young 손실이 도출되어 최적화되며 그레이디언트는 최대화 해의 야코비안 없이도 가능하다.
이중 확률적 그래디언트 방법으로 몬테 카를로 추정을 사용해 학습을 가속화하고 해밀 분포의 닫힌 형태를 요구하지 않는다.
CIFAR-10, 레이블 랭킹, 그리고 최단 경로 작업에 대한 실험은 경쟁력 있거나 우호적인 성능 및 온도 ε에 대한 강건성을 보인다.
이 방법은 어떤 흑박스 해도 미분 가능 블록으로 바꾸는 플러그인으로 적용될 수 있으며 오픈 소스 구현이 계획되어 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.