QUICK REVIEW

[論文レビュー] Stagewise Safe Bayesian Optimization with Gaussian Processes

Yanan Sui, Vincent Zhuang|arXiv (Cornell University)|Jun 20, 2018

Gaussian Processes and Bayesian Inference被引用数 67

ひとこと要約

StageOpt は安全なベイズ最適化において安全領域の拡張と効用の最適化を分離し、理論的保証を提供するとともに、合成テストと脊髄刺激療法の臨床応用で優れた性能を示します。

ABSTRACT

Enforcing safety is a key aspect of many problems pertaining to sequential decision making under uncertainty, which require the decisions made at every step to be both informative of the optimal decision and also safe. For example, we value both efficacy and comfort in medical therapy, and efficiency and safety in robotic control. We consider this problem of optimizing an unknown utility function with absolute feedback or preference feedback subject to unknown safety constraints. We develop an efficient safe Bayesian optimization algorithm, StageOpt, that separates safe region expansion and utility function maximization into two distinct stages. Compared to existing approaches which interleave between expansion and optimization, we show that StageOpt is more efficient and naturally applicable to a broader class of problems. We provide theoretical guarantees for both the satisfaction of safety constraints as well as convergence to the optimal utility value. We evaluate StageOpt on both a variety of synthetic experiments, as well as in clinical practice. We demonstrate that StageOpt is more effective than existing safe optimization approaches, and is able to safely and effectively optimize spinal cord stimulation therapy in our clinical experiments.

研究の動機と目的

不確実性がある状況下で、各ステップで安全であることが求められる意思決定を安全に連続最適化する動機付け。
RKHSの境界を持つガウス過程として未知の効用関数と安全機能をモデル化。
StageOptを提案し、安全域を分離して展開し、安全制約内で効用を最大化。
安全性の満足と最適解への収束について有限時間での理論的保証を提供。
合成実験と臨床的な脊髄刺激応用を通じて有効性を示す。

提案手法

効用と安全関数をRKHSノルムが有界で、リプシッツ連続な安全関数を持つガウス過程としてモデル化。
二段階のStageOptを定義: まず信頼区間と到達可能性を用いて安全域を拡張し、次にGP-UCBを用いて安全域内で効用を最適化。
拡張中の安全性を確保するため、過去の境界と現在の観測を交差させる保守的な信頼境界C_t^iを使用。
安全集合の更新S_tと拡張子セットG_tを用いて拡張を計算し、予測不確実性が最大の拡張子を選択。
最適化段階では、拡張された安全域内でGP-UCBによりx_tを選択; 競合的なフィードバック適応を許す（付録B）。
理論結果: 定理1はepsilon到達可能な安全域の拡張を保証し、定理2は安全域内でzeta最適な効用を保証。

実験結果

リサーチクエスチョン

RQ1StageOptは有限の時間内に初期の安全域をepsilon到達可能な集合へ安全に拡張できるか。
RQ2拡張後の安全域内でzeta最適な効用値を有限時間で達成できるか。
RQ3安全拡張と最適化を分離することは、異なる安全性と効用の尺度に対して効率と適用性を向上させるか。
RQ4合成データと臨床設定で、StageOptはSafeOptおよび制約付きEIと比べてどの程度性能を示すか。

主な発見

StageOptは有限の境界内で高い確率で安全域をepsilon到達可能な集合へ拡張する。
StageOptは安全域内で高い確率でzeta最適な効用値を有限境界内で達成する。
StageOptはSafeOptと同等以上の速度で安全域を成長させ、最適化中により高い効用点を特定することが多い。
SafeOptとCEIと比較して、StageOptはさまざまな安全制約下で合成実験においてより強い実証性能を示す。
脊髄刺激の臨床実験で、StageOptはより大きな安全域を安全に探索し、医師の推奨を上回る刺激戦略を見つけた。
本フレームワークは、GPベースの安全ベイズ最適化における安全性と最適化に特化した理論的保証を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。