[論文レビュー] Neural Nonmyopic Bayesian Optimization in Dynamic Cost Settings
LookaHESは、長期 horizon(20ステップ以上)を計画するために、ニューラルポリシーと経路サンプリングを用いた動的で歴史依存のコストを持つ非私見的ベイズ最適化フレームワークであり、合成タスクと実世界タスクの一部の私見的および非私見的ベースラインを上回る。
Bayesian optimization (BO) is a common framework for optimizing black-box functions, yet most existing methods assume static query costs and rely on myopic acquisition strategies. We introduce LookaHES, a nonmyopic BO framework designed for dynamic, history-dependent cost environments, where evaluation costs vary with prior actions, such as travel distance in spatial tasks or edit distance in sequence design. LookaHES combines a multi-step variant of $H$-Entropy Search with pathwise sampling and neural policy optimization, enabling long-horizon planning beyond twenty steps without the exponential complexity of existing nonmyopic methods. The key innovation is the integration of neural policies, including large language models, to effectively navigate structured, combinatorial action spaces such as protein sequences. These policies amortize lookahead planning and can be integrated with domain-specific constraints during rollout. Empirically, LookaHES outperforms strong myopic and nonmyopic baselines across nine synthetic benchmarks from two to eight dimensions and two real-world tasks: geospatial optimization using NASA night-light imagery and protein sequence design with constrained token-level edits. In short, LookaHES provides a general, scalable, and cost-aware solution for robust long-horizon optimization in complex decision spaces, which makes it a useful tool for researchers in machine learning, statistics, and applied domains. Our implementation is available at https://github.com/sangttruong/nonmyopia.
研究の動機と目的
- ベイズ最適化における動的で歴史依存の評価コストに対処する。
- 従来の4ステップのlookaheadを超えるスケーラブルな長期 horizon 計画を可能にする。
- 意思決定変数を最適化し、構造化されたアクション空間を扱うためにニューラルポリシーを組み込む。
- 合成ベンチマークと実世界ドメイン(タンパク質設計、地理空間最適化)での有効性を実証する。
- ノイズとコスト構造に対する頑健性を示す実装と実証評価を提供する。
提案手法
- H-Entropy Search (HES)を複数ステップ(EHIG)に拡張して動的コストを扱う非私見BOを定式化する。
- LookaHESを導入し、多段HESと経路サンプリングおよびニューラルポリシー最適化を組み合わせて最適化パラメータと軌道サンプルを削減する。
- 動的コスト(Markovianおよび非Markovian)をモデル化し、獲得関数にラグランジュ予算項を組み込む。
- リカレントニューラルポリシー(RNN/トランスフォーマーベース)を用いて見通し決定を変分的に最適化し、 horizon依存のパラメータ増加を抑える。
- 経路サンプリングを適用して幻想的な軌道を生成し、ロールアウトの計算量を指数関数的なものから管理可能なレベルに削減する。
- 離散空間と連続空間を、トークンを埋め込み、適切な微分法(リパラメタリゼーションまたはポリシー勾配)を用いて扱う。
実験結果
リサーチクエスチョン
- RQ1RQ1: LookaHESは、動的コスト下で連続入力に対して、最先端の私見的および非私見的ベースラインと比較してどうか。
- RQ2RQ2: LookaHESは離散入力空間の問題に効果的に適用できるか。
- RQ3RQ3: アレオロティブ/エピステミックノイズ、代替モデルの品質、lookaheadのホライズンはLookaHESの性能にどう影響するか。
- RQ4RQ4: 私見法の楽観性は非私見法より良い性能へ結びつくか、そしてこの楽観性は実世界の問題にも一般化できるか。
主な発見
- LookaHESは、複数のコスト構造にわたり私見ベースラインを一貫して上回り、合成ベンチマークでは非私見ベースラインにも競合する。
- 20ステップ以上の長期 horizonへスケールし、ニューラルポリシー最適化と経路サンプリングで指数的ロールアウトの計算量を低減。
- LookaHESは離散的なタンパク質配列設計で優れた性能を示し、スポットライトコスト下で編集を導く言語モデルベースのポリシーを活用。
- 連続的なNASA夜間地理空間最適化では、動的コスト下でベースラインより堅牢に改善を示す。
- タンパク質編集でLLaMa-3.2ベースのポリシーを用い、編集を制約付きにして蛍光を高め、私見法より累積後悔を低く抑える。
- 方法論は9つの合成ベンチマーク(2D–8D)と2つの実世界タスクを横断して示され、一般性とスケーラビリティを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。