QUICK REVIEW

[論文レビュー] Accelerating Channel Estimation and Demodulation of Uplink OFDM symbols for Large Scale Antenna Systems using GPU

Bhargav Gokalgandhi, Christina Segerholm|arXiv (Cornell University)|Jan 22, 2019

Advanced MIMO Systems Optimization参考文献 7被引用数 6

ひとこと要約

本稿では、CPU-GPUハイブリッドアーキテクチャを用いて、大規模MIMOシステムにおける上行リンクOFDMのGPUアクセラレート型チャネル推定およびデモジュレーションを提案する。最小二乗法によるチャネル推定と最大比率合成（MRC）の並列処理にGPUの並列性を活用することで、1024点FFTと16アンテナの条件下でCPUオンリーより最大12.5倍の高速化を達成した。これは、マス・MIMOシステムにおける高スループットなバックエンド処理にGPUが有効であることを示している。

ABSTRACT

Increase in the number of antennas in the front-end increases the volume of data to be processed at the back-end. This establishes a need for acceleration in back-end processing. To solve the issue of high volume data processing at back-end, a GPU is utilized. Acceleration for Least Squares channel estimation and demodulation of uplink OFDM symbols is provided by using a combination of CPU and GPU at the back-end. Single user uplink scenario is implemented in near real-time manner using the USRP platform present in the Large scale antenna systems in ORBIT Testbed. The number of antennas and FFT length are varied to provide different scenarios for comparison. The performance of both CPU and GPU is compared for each process.

研究の動機と目的

アンテナ数の増加に伴い増大する大規模MIMOシステムのバックエンド処理における計算負荷の増大に対処する。
リアルタイムシステムにおける高スループットOFDM信号処理において、CPUオンリーアーキテクチャの限界を克服する。
ソフトウェア定義無線環境におけるバックエンド信号処理のための、FPGA/ASICに代わる柔軟でコスト効率の高い代替手段としてのGPUアクセラレーションの有効性を評価する。
USRPNベースのORBITテストベッドを用いて、上行リンクOFDMデモジュレーションおよびチャネル推定のリアルタイム性能を実証する。

提案手法

CPUがデータ移動と制御を担当し、GPUが並列処理が可能なタスク（FFTや最小二乗法計算など）を加速するハイブリッドCPU-GPUアーキテクチャを実装する。
CUDAカーネルを用いて、サブキャリアおよびアンテナごとに最小二乗法によるチャネル推定を並列化し、サブキャリアごとにN個のブロック、アンテナごとにM本のスレッドを配置する。
共有メモリと並列還元を用いてGPU上で最大比率合成（MRC）を実装し、アンテナ間の信号を効率的に合算する。
サイクリックプレフィックスの除去とfftshift処理は、メモリアクセスオーバーヘッドが低いことからCPUで実装する。
CPUとGPU間のデータ転送を最適化し、遅延を最小限に抑え、メモリアクセスをコalesced化する。
ORBITテストベッドを用い、USRPN X310と16アンテナ搭載の大規模MIMOミニラックを用いて、さまざまなFFTサイズ（64, 1024）およびアンテナ数（1–16）の条件で性能を検証する。

実験結果

リサーチクエスチョン

RQ1GPUアクセラレーションは、大規模MIMOシステムにおけるOFDMチャネル推定およびデモジュレーションの実行時間を顕著に短縮できるか？
RQ2アンテナ数およびFFTサイズの増加に伴い、GPU処理の性能向上はどのようにスケーリングするか？
RQ3特に小規模な構成において、GPU-CPU間のデータ転送遅延が全体の処理時間に与える影響は何か？
RQ4リアルタイムOFDM信号処理において、GPUの並列性がデータ移動のオーバーヘッドをどれほど相殺できるか？
RQ5GPUベースの処理が、上行リンクOFDMシステムにおいてCPUオンリーより優れた性能を示す条件は何か？

主な発見

1024点FFTと16アンテナの条件下では、GPUはチャネル推定およびデモジュレーションにおいてCPUより平均12.5倍の高速化を達成した。
低アンテナ数（例：1–4）では、データ転送遅延のためGPUの実行時間がCPUを上回り、この構成ではCPUがより高速であった。
アンテナ数およびFFTサイズの両方と比例して実行時間が線形に増加することが、ORBITテストベッドからのスループット測定で示された。
加速効果はFFT長に強く依存しており、1024点の大きなFFTでは64点の小さなFFTよりも顕著なGPUの高速化が得られた。
共有メモリ上での並列還元により、和集合の計算量がO(N)からO(log N)に低減され、GPU上での効率的なMRCが可能になった。
結果から、通信オーバーヘッドを相殺するのに十分な並列性が確保できる大規模アンテナシステムにおいて、GPUアクセラレーションが有効であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。