[論文レビュー] Learning with Differentiable Perturbed Optimizers
離散最適化子を確率的摂動によって微分可能にする一般的手法を提案し、エンドツーエンド学習を可能にするとともに Fenchel-Young 損失への結びつきを実現し、ランキングと最短経路に適用可能である。
Machine learning pipelines often rely on optimization procedures to make discrete decisions (e.g., sorting, picking closest neighbors, or shortest paths). Although these discrete decisions are easily computed, they break the back-propagation of computational graphs. In order to expand the scope of learning problems that can be solved in an end-to-end fashion, we propose a systematic method to transform optimizers into operations that are differentiable and never locally constant. Our approach relies on stochastically perturbed optimizers, and can be used readily together with existing solvers. Their derivatives can be evaluated efficiently, and smoothness tuned via the chosen noise amplitude. We also show how this framework can be connected to a family of losses developed in structured prediction, and give theoretical guarantees for their use in learning tasks. We demonstrate experimentally the performance of our approach on various tasks.
研究の動機と目的
- ソーラー含むパイプラインでエンドツーエンドの微分可能性を実現する。
- 微分可能で非定数の出力を生む体系的な摂動ベースの平滑化を導入する。
- 構造化予測に対する理論的保証と Fenchel-Young 損失との関係を確立する。
- 二重確率的最適化を用いた実用的で並列化可能な学習フレームワークを提供する。
- ランキングや最短経路予測などのタスクで有効性を示し、関連ソフトウェアを公開する。
提案手法
- 入力 θ をランダムノイズ εZ で摂動し、摂動後の最大化解 y*_ε(θ) を検討する。
- 摂動後の最大値 F_ε(θ)=E[F(θ+εZ)] を定義し、 y*_ε(θ)=∇_θF_ε(θ) を示す。
- F_ε および y*_ε の微分が単純な期待値として表現可能であることを示し、モンテカルロ推定を可能にする。
- y*_ε を Ω=(F_ε)^* を用いた Fenchel 双対性による正則化最適化と関連付け、Fenchel-Young 損失と結びつける。
- これらの損失で学習するための二重確率的トレーニング方式を導入し、勾配を近似するためにモンテカルロサンプルを用いる。
- 擾乱をサンプリングして元の LP を解くことで任意のソルバーを黒箱微分可能にする実践的実装を概説する。
実験結果
リサーチクエスチョン
- RQ1確率的摂動を用いた原理主義的でソルバーに依存しない方法で、離散的最適化子を微分可能にできるか。
- RQ2期待値やモンテカルロ推定を通じて、摂動後の最大化解の勾配とヤコビ行列を効率的に計算するにはどうすればよいか。
- RQ3この摂動フレームワーク内で Fenchel-Young 損失が自然にどのように現れ、どのように最適化できるか。
- RQ4摂動ベースの手法はランキングや最短経路のような構造化予測タスクで良い性能を発揮するか。
主な発見
- 摂動後の最大化解 y*_ε(θ) は ε>0 のとき θ に関して微分可能で、ヤコビ行列は非零である。
- F_ε および y*_ε の微分はノイズ付き入力の単純な期待値として与えられ、効率的な計算を可能にする。
- 凸の Fenchel-Young 損失を導出でき、最大化解のヤコビ行列を必要としない勾配で最適化できる。
- モンテカルロ推定を用いた二重確率的勾配法は、厳密な分布を必要とせずに摂動を近似することで学習を加速する。
- CIFAR-10、ラベルランキング、最短経路タスクの実験は競争力のあるまたは有利な性能を示し、温度 ε に対する頑健性を示す。
- この手法は任意のブラックボックスソルバーを微分可能なブロックへと変えるプラグインとして適用でき、オープンソース実装を計画している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。