Skip to main content
QUICK REVIEW

[논문 리뷰] Reinforcement Learning based Beamforming for Massive MIMO Radar Multi-target Detection.

Aya Mostafa Ahmed, Alaa Alameer Ahmad|arXiv (Cornell University)|2020. 05. 10.
Radar Systems and Signal Processing참고 문헌 32인용 수 2
한 줄 요약

이 논문은 동적 교란이 존재하는 미지의 환경에서 다중 타깃 탐지를 가능하게 하기 위해 대규모 MIMO 인지 레이더를 위한 강화학습(RL)-기반 빔포밍 알고리즘을 제안한다. 레이더는 실시간 환경 피드백을 이용해 스스로 빔패턴을 적응적으로 형상화하는 RL 에이전트로 작동하며, 특히 저 SNR, 무거운 尾비노이즈, 급격히 변화하는 조건에서 온전한 방사형 빔포밍보다 뛰어난 성능을 보인다.

ABSTRACT

This paper considers the problem of multi-target detection for massive multiple input multiple output (MMIMO) cognitive radar (CR). The concept of CR is based on the perception-action cycle that senses and intelligently adapts to the dynamic environment in order to optimally satisfy a specific mission. However, this usually requires a priori knowledge of the environmental model, which is not available in most cases. We propose a reinforcement learning (RL) based algorithm for cognitive beamforming in the presence of unknown disturbance statistics. The radar acts as an agent which continuously senses the unknown environment (i.e., targets and disturbance). Consequently, it optimizes the beamformers through tailoring the beampattern based on the acquired information. Furthermore, we propose a solution to the beamforming optimization problem with less complexity than the existing methods. Numerical simulations are performed to assess the performance of the proposed RL-based algorithm in both stationary and dynamic environments. The RL based beamforming is compared to the conventional omnidirectional approach with equal power allocation. As highlighted by the proposed numerical results, our RL-based beamformer greatly outperforms the omnidirectional one in terms of target detection performance. The performance improvement is even more remarkable under environmentally harsh conditions such as low SNR, heavy-tailed disturbance and rapidly changing scenarios.

연구 동기 및 목표

  • 모르는 시간에 변화하는 환경 조건에서 대규모 MIMO 인지 레이더(MMIMO-CR)의 다중 타깃 탐지 과제를 해결한다.
  • 왜곡 통계에 대한 사전 지식이 필요로 하는 전통적인 빔포밍 방법의 한계를 극복한다.
  • 실시간 환경 변화에 적응 가능한 저복잡도 빔포밍 최적화 프레임워크를 개발한다.
  • 지속적인 환경 상호작용을 통해 인지 레이더가 자율적으로 환경을 감지하고 빔포밍 전략을 적응시킬 수 있도록 한다.
  • 저 SNR 및 비정규 분포 간섭과 같은 열악한 전파 환경에서의 타깃 탐지 성능을 향상시킨다.

제안 방법

  • 레이더를 에이전트로, 타깃과 미지의 간섭을 포함한 환경를 포함하는 마르코프 결정 과정(MDP)으로 빔포밍 문제를 수립한다.
  • 상태 공간을 레이더의 현재 타깃 및 간섭 조건 감지로 정의하고, 행동 공간을 빔포머 가중치 벡터로 정의한다.
  • 높은 간섭대신호비율(SINR)과 정확한 타깃 탐지 촉진을 위한 보상 함수를 설계한다.
  • 연속적인 상태-행동 공간을 위한 Q-값 함수 추정을 위해 함수 근사(예: 딥 Q네트워크 또는 유사한 RL 아키텍처)를 사용한다.
  • 경험 재생과 타겟 네트워크를 사용하여 학습 안정성 향상과 수렴성 향상을 위해 RL 에이전트를 훈련시킨다.
  • 실시간 피드백 기반으로 빔패턴을 동적으로 형상화함으로써 간섭을 최소화하고 타깃 반응을 최대화함으로써 빔포머를 최적화한다.

실험 결과

연구 질문

  • RQ1강화학습은 간섭 통계에 대한 사전 지식 없이 대규모 MIMO 레이더에서 효과적인 빔포밍을 가능하게 하는가?
  • RQ2타깃 탐지 정확도 측면에서 강화학습 기반 빔포머는 전통적인 온전한 방사형 빔포밍보다 어떻게 성능을 냈는가?
  • RQ3저 SNR 및 비정규(무거운 尾) 간섭 조건에서 제안된 RL 방법의 성능 향상은 어떠한가?
  • RQ4타깃 추적 중 급격히 변화하는 환경 역학에 알고리즘이 어떻게 적응하는가?
  • RQ5기존 최적화 기반 빔포밍 기법에 비해 제안된 방법은 계산 복잡도를 얼마나 줄이는가?

주요 결과

  • 모든 테스트 시나리오에서 RL 기반 빔포머는 온전한 방사형 빔포밍 방법보다 타깃 탐지 성능에서 뚜렷한 우월성을 보였다.
  • 저 SNR 조건에서 RL 방법은 간섭이 비정규일 경우 특히 높은 탐지 확률 향상을 달성했다.
  • 급격히 변화하는 환경에서 RL 에이전트는 정적 또는 사전 설계된 빔포머보다 더 효과적으로 빔포밍 전략을 적응시켰다.
  • 제안된 방법은 중간에 간섭이 존재하는 경우에도 높은 탐지 정확도를 유지하며 강건성을 입증했으며, 기존 방법이 실패하는 상황에서도 유사한 성능을 유지했다.
  • 전통적인 최적화 기반 빔포밍 알고리즘에 비해 계산 복잡도를 감소시키면서도 경쟁 가능한 성능을 달성했다.
  • 수치 결과는 RL 에이전트가 환경 모델링 없이도 에너지를 타깃 향해 집중시키고 간섭을 줄이기 위해 빔패턴을 형상화하는 것을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.