Skip to main content
QUICK REVIEW

[論文レビュー] Learning Optimal Search Strategies

Stefan Ankirchner, Maximilian Philipp Thiel|arXiv (Cornell University)|Mar 2, 2026
Smart Parking Systems Research被引用数 0
ひとこと要約

論文は、未知の不均一 Poisson 到来を伴う連続時間の駐車問題に対して閾値ベースの停止ルールを学習する Indifference Level Updating (ILU) アルゴリズムを提案し、対数的後悔とそれに対応する minimax 下限を達成することを示す。

ABSTRACT

We explore the question of how to learn an optimal search strategy within the example of a parking problem where parking opportunities arrive according to an unknown inhomogeneous Poisson process. The optimal policy is a threshold-type stopping rule characterized by an indifference position. We propose an algorithm that learns this threshold by estimating the integrated jump intensity rather than the intensity function itself. We show that our algorithm achieves a logarithmic regret growth, uniformly over a broad class of environments. Moreover, we prove a logarithmic minimax regret lower bound, establishing the growth optimality of the proposed approach.

研究の動機と目的

  • 機会到来が未知の不均一 Poisson 過程に従う場合に、最適な探索/停止ルールを学習する研究動機を提示する。
  • 閾値型の停止ルールと無関心位置としての最適方針を特徴付ける。
  • 完全な強度関数ではなく、積分跳躍強度を推定して最適閾値を学習するアルゴリズムを開発・分析する。
  • 対数成長を示す後悔境界を確立し、minimax 下限を証明して ILU の最適成長率を示す。
  • 確率過程的な機会到来を伴うタイミング・探索問題への適用性の広さを強調する。

提案手法

  • 不均一 Poisson 過程の強度 λ に従う自由駐車場の連続時間モデルを用いる。
  • 最適停止ルールは閾値 b* であり、b* の後の最初の空き駐車場を取ることが最適(無関心条件)。
  • ILU アルゴリズムは、各ラウンドで観測される跳躍から積分跳躍強度を推定して無関心閾値を更新する。
  • 平均二乗誤差 O(1/n) の積分強度の推定量を用いて閾値選択の後悔を界づける。
  • ILU アルゴリズムは広い環境クラスにわたって対数的後悔境界を達成し、この速度を超えることをいかなるアルゴリズムも不可能である(minimax 下限)。
  • 積分強度を学習する利点を示し、完全な強度関数の学習よりも収束を速くする。

実験結果

リサーチクエスチョン

  • RQ1 agent は未知の不均一 Poisson 過程から到来する駐車機会に対して最適閾値停止ルールを学習できるか。
  • RQ2この連続時間駐車問題における閾値の最適性の特徴づけは何か。
  • RQ3回数を重ねるごとに後悔が対数的に増加する学習アルゴリズムを、豊富な強度関数クラスに対して設計できるか。
  • RQ4対数後悔が可能な最良の速度であることを示す minimax 下限を確立できるか。
  • RQ5積分跳躍強度を推定することは、完全な強度関数を推定するよりも近似最適な学習をもたらすか。

主な発見

  • 駐車問題の最適方針は無関心位置を特徴とする閾値型停止ルールである。
  • ILU アルゴリズムは積分跳躍強度を推定して閾値を学習し、後悔はラウンド数とともに対数的に増加する。
  • 広い環境クラスに対して対数的 minimax 後悔下限が存在し、ILU の成長性が最適であることを証明する。
  • 積分強度の推定は平均二乗誤差率が 1/n で収束し、無関心閾値の枠組みを通じて対数後悔境界を可能にする。
  • 完全な強度関数(例:カーネル法など)の推定は、積分強度を推定するよりも収束が遅く、後悔が大きくなる。
  • 結果は駐車以外にも、確率的な機会到来を伴う広いタイミング・探索問題へと適用が拡張される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。