Skip to main content
QUICK REVIEW

[論文レビュー] Online Social Welfare Function-based Resource Allocation

Kanad Pardeshi, Samsara Foubert|arXiv (Cornell University)|Feb 1, 2026
Advanced Bandit Algorithms Research被引用数 0
ひとこと要約

この論文は、固定母集団に対するオンライン資源配分を社会福利関数(SWF)で formalize し、信頼区間列フレームワークとSWF-UCB アルゴリズムを提供する。3つのSWF族(Weighted Power Mean、Kolm、Gini)に対してほぼ最適な後悔保証を達成する。

ABSTRACT

In many real-world settings, a centralized decision-maker must repeatedly allocate finite resources to a population over multiple time steps. Individuals who receive a resource derive some stochastic utility; to characterize the population-level effects of an allocation, the expected individual utilities are then aggregated using a social welfare function (SWF). We formalize this setting and present a general confidence sequence framework for SWF-based online learning and inference, valid for any monotonic, concave, and Lipschitz-continuous SWF. Our key insight is that monotonicity alone suffices to lift confidence sequences from individual utilities to anytime-valid bounds on optimal welfare. Building on this foundation, we propose SWF-UCB, a SWF-agnostic online learning algorithm that achieves near-optimal $ ilde{O}(n+\sqrt{nkT})$ regret (for $k$ resources distributed among $n$ individuals at each of $T$ time steps). We instantiate our framework on three normatively distinct SWF families: Weighted Power Mean, Kolm, and Gini, providing bespoke oracle algorithms for each. Experiments confirm $\sqrt{T}$ scaling and reveal rich interactions between $k$ and SWF parameters. This framework naturally supports inference applications such as sequential hypothesis testing, optimal stopping, and policy evaluation.

研究の動機と目的

  • SWFベースの福利集約による母集団に対する反復資源配分を形式化。
  • SWF単調性のみを要件とする時間的均一な信頼区間フレームワークを開発。
  • SWFベース福利最大化のための後悔保証付き効率的オンライン学習アルゴリズムを提供。
  • 3つのSWF族(Weighted Power Mean、Kolm、Gini)用の専用オラクルを用意してフレームワークを具体化。
  • 逐次検定、最適停止、政策評価などの推論タスクを可能にする。

提案手法

  • ex-ante ユーティリティ _i = [U_i] と、和が k となるポリシー p を定義し、M(a mu a o p) によって集約する。
  • 単調なSWFで coordinate-wise CS を M(a mu a o p^*) に対する anytime-valid な境界へ変換できる信頼区間リフティング定理を証明。
  • SWF-UCB を開発:上界信頼区間を用いて M(a mu a o p) を最適化する一般的なオンライン学習アルゴリズム。
  • SWFファミリごと(WPM、Kolmはウェーターフィリング、Giniは貪欲なブロックベース法)に対する正確なオラクルを提供。
  • 出力がカーディナリティ制約と限界確率制約を満たすように依存丸めを用いて割り当てをサンプリング。
  • 後悔界を証明:N = 個人の数、k = ラウンドごとの資源、T ラウンド時: terilde{O}(n + sqrt(n k T))。
  • フレームワークは k の非単調後悔を示す。推論アプリケーションをCSフレームワークで可能にする。
(a) WPM SWF
(a) WPM SWF

実験結果

リサーチクエスチョン

  • RQ1単調な SWF をどう活用してオンライン資源配分における anytime-valid 福利保証を得るか?
  • RQ2制約付きフィードバックの下でオンラインSWFベースの割当の緊密な後悔性能はどれくらいか?
  • RQ3オンライン設定で異なるSWF族(WPM、Kolm、Gini)の割当を効率的に最適化するには?
  • RQ4フレームワークは逐次推論タスク(検定、停止、政策評価)をサポートできるか?
  • RQ5SWFパラメータ(重み、公正性パラメータ q) は学習ダイナミクスと後悔にどのように影響するか?

主な発見

  • SWF の単調性は coordinate-wise CS を anytime-valid 福利境界へ拡張するのに十分である(定理4.1)。
  • SWF-UCB は n 人に対して T ラウンドで k 資源を割り当てる際、ほぼ最適な terilde{O}(n + sqrt(n k T)) 後悔を達成。
  • WPMとKolmはウェーターフィリングにより、Giniは貪欲なブロックベース法により、それぞれ O(n log n) および O(k n) のオラクルを提供。
  • 実験では WPM、Kolm、Gini の各で後悔が r sqrt{T} へとスケーリングすることを示し、k に対する後悔の非単調依存性(中間の k 付近で最大)を観察。
  • 中間的な SWF パラメータは学習ダイナミクスを豊かにし、フレームワークは逐次推論タスク(例:逐次検定、最適停止、政策評価)をサポートする。
(b) Kolm SWF
(b) Kolm SWF

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。