QUICK REVIEW

[論文レビュー] Reinforcement Learning based Beamforming for Massive MIMO Radar Multi-target Detection.

Aya Mostafa Ahmed, Alaa Alameer Ahmad|arXiv (Cornell University)|May 10, 2020

Radar Systems and Signal Processing参考文献 32被引用数 2

ひとこと要約

本稿では、未知の環境と動的な摂動下で複数ターゲット検出を可能にする、マス・MIMO認知レーダー向けの強化学習（RL）ベースのビームフォーミング手法を提案する。レーダーは環境フィードバックをリアルタイムで受けてビームパターンを自己適応的に形状するRLエージェントとして機能し、特に低SNR、重尾ノイズ、急激に変化する条件下でも、オムニディレクショナルビームフォーミングを著しく上回る性能を発揮する。

ABSTRACT

This paper considers the problem of multi-target detection for massive multiple input multiple output (MMIMO) cognitive radar (CR). The concept of CR is based on the perception-action cycle that senses and intelligently adapts to the dynamic environment in order to optimally satisfy a specific mission. However, this usually requires a priori knowledge of the environmental model, which is not available in most cases. We propose a reinforcement learning (RL) based algorithm for cognitive beamforming in the presence of unknown disturbance statistics. The radar acts as an agent which continuously senses the unknown environment (i.e., targets and disturbance). Consequently, it optimizes the beamformers through tailoring the beampattern based on the acquired information. Furthermore, we propose a solution to the beamforming optimization problem with less complexity than the existing methods. Numerical simulations are performed to assess the performance of the proposed RL-based algorithm in both stationary and dynamic environments. The RL based beamforming is compared to the conventional omnidirectional approach with equal power allocation. As highlighted by the proposed numerical results, our RL-based beamformer greatly outperforms the omnidirectional one in terms of target detection performance. The performance improvement is even more remarkable under environmentally harsh conditions such as low SNR, heavy-tailed disturbance and rapidly changing scenarios.

研究の動機と目的

未知で時間変動する環境条件下におけるマス・MIMO認知レーダー（MMIMO-CR）の複数ターゲット検出の課題に対処すること。
摂動統計の事前知識を必要とする従来のビームフォーミング手法の限界を克服すること。
リアルタイムの環境変化に適応可能な低複雑度のビームフォーミング最適化フレームワークを開発すること。
認知レーダーが環境との継続的相互作用を通じて自律的にビームフォーミング戦略をセンシングおよび適応可能にする。
低SNRや非ガウス型摂動などの厳しい伝搬環境下でのターゲット検出性能を向上させること。

提案手法

レーダーをエージェントとし、ターゲットおよび未知の摂動を含む環境を対象として、ビームフォーミング問題をマルコフ決定過程（MDP）として定式化する。
状態空間をレーダーの現在のターゲットおよび干渉状態のセンシングと定義し、行動空間をビームフォーマ重みベクトルと定義する。
高い信号対干渉＋ノイズ比（SINR）と正確なターゲット検出を促進する報酬関数を設計する。
連続的な状態・行動空間に対応するため、関数近似（例：ディープQネットワークまたは類似のRLアーキテクチャ）を用いてQ値関数を推定する。
経験再生とターゲットネットワークを用いてRLエージェントを訓練し、学習の安定化と収束性の向上を図る。
リアルタイムフィードバックに基づいてビームパターンを動的に形状することでビームフォーマを最適化し、干渉を最小限に抑えながらターゲット応答を最大化する。

実験結果

リサーチクエスチョン

RQ1強化学習は、摂動統計の事前知識なしに、マス・MIMOレーダーにおける効果的なビームフォーミングを可能にするか？
RQ2ターゲット検出精度の観点から、RLベースのビームフォーマは従来のオムニディレクショナルビームフォーミングと比べてどのように性能を発揮するか？
RQ3低SNRおよび非ガウス型（重尾）摂動条件下で、提案手法の性能向上はどの程度か？
RQ4ターゲット追跡中に急激に変化する環境動的要因に、アルゴリズムはどのように適応するか？
RQ5既存の最適化ベースのビームフォーミング手法と比較して、提案手法は計算複雑度をどの程度低減できるか？

主な発見

RLベースのビームフォーマは、全テストシナリオにおいてオムニディレクショナルビームフォーミング手法を著しく上回るターゲット検出性能を発揮する。
低SNR条件下では、干渉が非ガウス型である場合に特に顕著な検出確率の向上が達成される。
急激に変化する環境下では、静的または事前設計されたビームフォーマーよりも、RLエージェントがより効果的にビームフォーミング戦略を適応させる。
提案手法は重尾摂動に対して高いロバスト性を示し、従来手法が失敗する状況でも高い検出精度を維持する。
従来の最適化ベースのビームフォーミングアルゴリズムと比較して、競争力ある性能を達成しながら計算複雑度を低減する。
数値的結果から、RLエージェントが環境モデル化を明示的に行わずに、ターゲット方向にエネルギーを集約し干渉を抑制するビームパターンを学習していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。