[論文レビュー] LIBRA: Language Model Informed Bandit Recourse Algorithm for Personalized Treatment Planning
LIBRAは大規模言語モデルとリコース認識バンディットを統合し、実行可能な特徴の最小変更と理論的保証で個別化治療計画を実現します。
We introduce a unified framework that seamlessly integrates algorithmic recourse, contextual bandits, and large language models (LLMs) to support sequential decision-making in high-stakes settings such as personalized medicine. We first introduce the recourse bandit problem, where a decision-maker must select both a treatment action and a feasible, minimal modification to mutable patient features. To address this problem, we develop the Generalized Linear Recourse Bandit (GLRB) algorithm. Building on this foundation, we propose LIBRA, a Language Model-Informed Bandit Recourse Algorithm that strategically combines domain knowledge from LLMs with the statistical rigor of bandit learning. LIBRA offers three key guarantees: (i) a warm-start guarantee, showing that LIBRA significantly reduces initial regret when LLM recommendations are near-optimal; (ii) an LLM-effort guarantee, proving that the algorithm consults the LLM only $O(\log^2 T)$ times, where $T$ is the time horizon, ensuring long-term autonomy; and (iii) a robustness guarantee, showing that LIBRA never performs worse than a pure bandit algorithm even when the LLM is unreliable. We further establish matching lower bounds that characterize the fundamental difficulty of the recourse bandit problem and demonstrate the near-optimality of our algorithms. Experiments on synthetic environments and a real hypertension-management case study confirm that GLRB and LIBRA improve regret, treatment quality, and sample efficiency compared with standard contextual bandits and LLM-only benchmarks. Our results highlight the promise of recourse-aware, LLM-assisted bandit algorithms for trustworthy LLM-bandits collaboration in personalized high-stakes decision-making.
研究の動機と目的
- 個別化医療のような高リスク設定におけるリコース認識的逐次意思決定を動機づける。
- リコースバンディット問題を定式化し、最小限の実現可能な特徴変更を伴う治療を学習するGLRBを開発する。
- LIBRAを導入し、LLM指導とオンラインバンディット学習を組み合わせて初期性能の改善と時間とともの自律学習を図る。
- リコース後悔とアルゴリズム的最適性の理論的保証と下界を提供する。
- 合成実験と高血圧管理のケーススタディで検証する。
提案手法
- immutable features xI と可変特徴 xM およびアクション A を含むリコースバンディット問題を定義する。
- GLRB(Generalized Linear Recourse Bandit)を開発し、サブガウスノイズを伴うGLMの下でパラメータを学習しリコースを提供する。
- 不確実性集合内でリコースとアクションを選択する最適化オブザベーション(ORO-Arm)を定式化し、必要に応じて2ブロック座標降下法で解く。
- θa* の高確率不確実性集合を証明し、KL性質の議論を用いて最適化手続きの収束を確立する。
- LIBRAをLLMsとバンディットの協働として提示し、ウォームスタートの利点、限られたLLMクエリ回数 O(log^2 T)、LLMが信頼できない場合のロバスト性を示す。
- リコース後悔の下界を提供し、提案アルゴリズムのほぼ最適性を示す。
実験結果
リサーチクエスチョン
- RQ1治療選択と最小限の実現可能なリコース調整を結合する逐次意思決定フレームワークをどう設計するか。
- RQ2オンラインバンディット学習に対して有用なウォームスタート指針をLLMが提供しつつ、サブ線形の後悔を維持できるか。
- RQ3リコース認識バンディット設定におけるLIBRAの保証(ウォームスタート、LLM労力、ロバスト性)は何か。
- RQ4リコースバンディットの基本的な下界は何で、GLRBとLIBRAはほぼ最適な後悔を達成するか。
- RQ5GLRBとLIBRAは合成データと実データの両方で、標準的な線形文脈バンディットとLLMのみのベースラインと比較して後悔、治療品質、サンプル効率を改善するか。
主な発見
- GLRBは一般化線形モデルの下でリコース後悔境界をおおよそ Õ(d√KT)程度達成する。
- LIBRAはウォームスタート、LLM労力、ロバスト性の保証に加え、ほぼ最適性を示す下界を満たす。
- LLM推奨がほぼ最適である場合にLIBRAは初期後悔を減少させ、LLMは O(log^2 T) 回のみ参照される。
- 合成環境と高血圧ケーススタディにおける実験は、LinUCBおよびLLMのみのベンチマークと比較して後悔、治療品質、サンプル効率の面で改善を示す。
- GLRBとLIBRAは合成データおよび臨床データの両方で、標準的文脈バンディットおよびLLMのみのベースラインを上回る。
- LIBRAは個別化された高リスク意思決定のためのリコース認識的信頼性のあるLLM-バンディット協働を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。