QUICK REVIEW

[論文レビュー] Online Stochastic Bin Packing

Varun Gupta, Ana Radovanović|arXiv (Cornell University)|Nov 12, 2012

Optimization and Search Problems参考文献 18被引用数 25

ひとこと要約

本稿では、凸最適化における内点法にインspされた、分布に依存しないオンライン確率的バインディングパッキングアルゴリズムの族を提案する。これらのアルゴリズムは、すべてのアイテムサイズ分布に対して $Ø(\sqrt{T})$ の加法的劣化を達成し、従来の学習ベースまたは分布特化型の手法が制限された仮定のもとで達成できる $o(T)$ のレグレットを上回る。

ABSTRACT

Bin packing is an algorithmic problem that arises in diverse applications such as remnant inventory systems, shipping logistics, and appointment scheduling. In its simplest variant, a sequence of $T$ items (e.g., orders for raw material, packages for delivery) is revealed one at a time, and each item must be packed on arrival in an available bin (e.g., remnant pieces of raw material in inventory, shipping containers). The sizes of items are i.i.d. samples from an unknown distribution, but the sizes are known when the items arrive. The goal is to minimize the number of non-empty bins (equivalently waste, defined to be the total unused space in non-empty bins). This problem has been extensively studied in the Operations Research and Theoretical Computer Science communities, yet all existing heuristics either rely on learning the distribution or exhibit $o(T)$ additive suboptimality compared to the optimal offline algorithm only for certain classes of distributions (those with sublinear optimal expected waste). In this paper, we propose a family of algorithms which are the first truly distribution-oblivious algorithms for stochastic bin packing, and achieve $\mathcal{O}(\sqrt{T})$ additive suboptimality for all item size distributions. Our algorithms are inspired by approximate interior-point algorithms for convex optimization. In addition to regret guarantees for discrete i.i.d. sequences, we extend our results to continuous item size distribution with bounded density, and also prove a family of novel regret bounds for non-i.i.d. input sequences. To the best of our knowledge these are the first such results for non-i.i.d. and non-random-permutation input sequences for online stochastic packing.

研究の動機と目的

既存のヒューリスティクスが分布学習を必要としたり、特定の分布に対してのみ機能し、サブラインアの最適な廃棄量を達成するというオンライン確率的バインディングパッキング分野におけるギャップを埋める。
アイテムサイズ分布の事前知識を一切必要としない真正の分布に依存しないアルゴリズムを開発し、強力なレグレットバウンドを達成する。
オンライン確率的バインディングパッキングにおいて、i.i.d. およびランダム順列の仮定を超えて、非i.i.d.および非ランダム順列の入力列に対しても、初めてのレグレット保証を提供する。
離散的i.i.d.列からの理論的結果を、有界密度を持つ連続分布へと拡張する。
すべてのアイテムサイズ分布に対して、$Ø(\sqrt{T})$ の加法的劣化を達成する。これは、元の分布の性質とは無関係に成立する。

提案手法

ペナルティ付きラグランジュ双対フレームワークを用いて、オンラインバインディングパッキング問題を凸最適化問題として定式化する。
内点法に基づく原双対アルゴリズムを設計し、ペナルティ関数（例：対数バリアまたは平行移動二次関数）が滑らかさと安定性を保証するようにする。
現在の状態とアイテムの到着に応じて、バインディング使用量を動的に更新するルールを採用し、ラグランジュ関数を段階的に最小化する。
2次テイラー展開とペナルティ関数の性質を用いて、1アイテム到着あたりのラグランジュ関数の期待値変化をバウンドする。
オンラインアルゴリズムのラグランジュ関数の変化を、理想化されたオフラインアルゴリズム $A_F$ のそれと関連付けることで、レグレットバウンドを導出する。
集中性と滑らかさの議論を適用し、連続的および非i.i.d.入力に対しても、劣化ギャップが $\mathcal{O}(\sqrt{T})$ に比例して増加することを示す。

実験結果

リサーチクエスチョン

RQ1分布を学習することなく、すべてのアイテムサイズ分布に対して $\mathcal{O}(\sqrt{T})$ の加法的劣化を達成できるオンラインバインディングパッキングアルゴリズムを設計できるか？
RQ2凸最適化における内点法は、確率的バインディングパッキングにおけるオンラインで逐次的な意思決定にどのように適応できるか？
RQ3オンライン確率的バインディングパッキングにおいて、非i.i.d.または準敵対的入力列に対して、どのようなレグレットバウンドを確立できるか？
RQ4分布に依存しないアルゴリズムは、重尾型または有界密度を持つアイテムサイズを持つ分布に対しても、$T$ に対してサブラインアの劣化を達成できるか？
RQ5この設定において、収束性とレグレットの最適なトレードオフを達成するためのペナルティ関数は何か？

主な発見

対数バリアペナルティを用いた提案された原双対アルゴリズムは、$Tb(F) + 4\sqrt{BT\log(T+1)}$ のレグレットバウンドで抑えられ、ここで $b(F)$ は1アイテムあたりの最適期待廃棄量である。
平行移動二次関数ペナルティを用いることで、対数要因に依存しないよりタイトなレグレットバウンド $Tb(F) + \sqrt{2BT}$ が得られる。
アルゴリズムは、有界密度を持つ連続分布を含む、すべてのアイテムサイズ分布に対して $\mathcal{O}(\sqrt{T})$ の加法的劣化を達成する。
非i.i.d.または準敵対的シーケンスでは、フレームワークがi.i.d.およびランダム順列の仮定を超えて、新たなレグレットバウンドを提供する。
この手法は分布に依存しない：アイテムサイズの背後にある分布を推定または学習する必要がない。
理論的分析により、使用されるバインディングの期待数が、すべての分布において最適なオフライン解から $\mathcal{O}(\sqrt{T})$ の範囲内にあることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。