QUICK REVIEW

[論文レビュー] Adaptive Shortest-Path Routing under Unknown and Stochastically Varying Link States

Keqin Liu, Qing Zhao|arXiv (Cornell University)|Jan 24, 2012

Advanced Bandit Algorithms Research参考文献 13被引用数 32

ひとこと要約

本稿では、未知で確率的に変動するリンク状態を有する無線ネットワークにおける適応的最短経路ルーティングアルゴリズムを提案する。ここで観測可能なのは総経路コストのみである。問題をリンクを共有する経路（腕）が依存する多腕バンディット問題としてモデル化することで、片持ち分布に対しては $ O(d^3 \tan T) $、重い尾を持つ分布に対しては $ O(dT^{1/q}) $ のレグレットを達成し、経路の依存関係を活用することで、古典的MABと比較してネットワークサイズのスケーリングを指数的から多項式的へと改善する。

ABSTRACT

We consider the adaptive shortest-path routing problem in wireless networks under unknown and stochastically varying link states. In this problem, we aim to optimize the quality of communication between a source and a destination through adaptive path selection. Due to the randomness and uncertainties in the network dynamics, the quality of each link varies over time according to a stochastic process with unknown distributions. After a path is selected for communication, the aggregated quality of all links on this path (e.g., total path delay) is observed. The quality of each individual link is not observable. We formulate this problem as a multi-armed bandit with dependent arms. We show that by exploiting arm dependencies, a regret polynomial with network size can be achieved while maintaining the optimal logarithmic order with time. This is in sharp contrast with the exponential regret order with network size offered by a direct application of the classic MAB policies that ignore arm dependencies. Furthermore, our results are obtained under a general model of link-quality distributions (including heavy-tailed distributions) and find applications in cognitive radio and ad hoc networks with unknown and dynamic communication environments.

研究の動機と目的

未知かつ確率的に変動するリンク状態を有するネットワークにおける効率的なオンライン学習ポリシーを設計すること。
個々のリンクコストではなく、総エンドツーエンド経路コストしか観測できないという課題に対処すること。
時間のホライズンとネットワークサイズの両面でレグレットを最小化すること、特に共有リンクを通じた経路間の依存関係を活用すること。
コン pact 動作集合を有する一般の確率的オンライン線形最適化問題へと結果を拡張すること。
時間に対してサブ線形レグレットを達成し、ネットワークサイズに対しても多項式的スケーリングを維持するが、重い尾を持つリンクコスト分布下でも同様に成立すること。

提案手法

各腕がソース・ディスティネーション間の経路に対応する、依存する腕を有する多腕バンディット問題として、適応的ルーティング問題を定式化する。
探索と活用のバランスを取るために、幾何的に増加するエポック長を有するエポックベース構造を用いる。
過去の観測数が閾値に対して小さい時間スロットを含む探索シーケンスを構築し、各経路の十分なサンプリングを保証する。
期待される経路コストの推定と信頼区間に基づくアクション選択のために、DSEE（デュアルサーチ・エクスプローラション・エクスプロイテーション）フレームワークを適用する。
重い尾分布に対しては、[6] からの乖離バウンドを用いて推定誤差を制御し、モーメントの順序 $ q $ に基づくレグレットバウンドを導出する。
各エポック内で最短経路計算を適用することで、最適な行動に収束するように、最適化問題に一般化する。

実験結果

リサーチクエスチョン

RQ1未知で確率的に変動するリンク状態下の適応的ルーティングにおいて、ネットワークサイズに対して多項式的、時間に対して対数的スケーリングを維持しながら、レグレットを多項式的スケーリングにできるか？
RQ2共有リンクを通じた経路の依存関係をどのように活用することで、古典的多腕バンディットポリシーを上回る学習効率を達成できるか？
RQ3高次モーメントが制限される重い尾分布下で、どのようなレグレットバウンドが達成可能か？
RQ4提案されたフレームワークを、連続的動作集合を有するより広範な確率的オンライン線形最適化問題へ一般化できるか？
RQ5ネットワークサイズと時間ホライズンのレグレットスケーリングの間にはどのような性能トレードオフがあり、それらをどのように制御できるか？

主な発見

提案アルゴリズムは、片持ち分布下で $ O(d^3 \tan T) $ のレグレットを達成する。ここで $ d $ は経路集合の次元、$ T $ は時間ホライズンである。
探索シーケンスを変更することで、レグレットを $ d $ に対して線形にまで低減可能であるが、時間スケーリングはわずかに悪化する。これにより、ネットワークサイズと時間ホライズンの性能の間でトレードオフを実現できる。
$ q $ 次モーメント（$ q > 1 $）を持つ重い尾分布下では、レグレットが $ O(dT^{1/q}) $ で有界であり、時間に対してサブ線形であるため、時間平均コストが最適経路コストに収束することを示唆する。
ネットワークサイズに対するスケーリングが、経路依存関係を無視する古典的MABポリシーとは異なり、指数的ではなく多項式的である。
フレームワークは、確率的オンライン線形最適化（SOLO）問題へ一般化可能であり、片持ち分布下では $ O(d^3 T^{2/3} \tan^{1/3} T) $ のレグレットを達成する。
結果は一般のコスト分布（重い尾を含む）に対して成り立ち、動的かつ未知のチャネル状態を有する認知無線およびアドホックネットワークへも適用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。