[论文解读] Efficient Soft-Output Gauss-Seidel Data Detector for Massive MIMO Systems
该论文提出了一种基于高斯-赛德尔(GS)的高效软输出数据检测器,用于大规模MIMO系统,通过使用二项式诺依曼级数展开(NSE)作为初始解,加速收敛。该VLSI架构在128×8大规模MIMO系统上实现了732 Mb/s的吞吐量,且误码率性能接近MMSE,优于以往设计,在延迟、面积和硬件效率方面表现更优,同时在恶劣传播条件下仍保持低复杂度。
For massive multiple-input multiple-output (MIMO) systems, linear minimum mean-square error (MMSE) detection has been shown to achieve near-optimal performance but suffers from excessively high complexity due to the large-scale matrix inversion. Being matrix inversion free, detection algorithms based on the Gauss-Seidel (GS) method have been proved more efficient than conventional Neumann series expansion (NSE) based ones. In this paper, an efficient GS-based soft-output data detector for massive MIMO and a corresponding VLSI architecture are proposed. To accelerate the convergence of the GS method, a new initial solution is proposed. Several optimizations on the VLSI architecture level are proposed to further reduce the processing latency and area. Our reference implementation results on a Xilinx Virtex-7 XC7VX690T FPGA for a 128 base-station antenna and 8 user massive MIMO system show that our GS-based data detector achieves a throughput of 732 Mb/s with close-to-MMSE error-rate performance. Our implementation results demonstrate that the proposed solution has advantages over existing designs in terms of complexity and efficiency, especially under challenging propagation conditions.
研究动机与目标
- 为解决大规模MIMO系统中由于大规模矩阵求逆导致的最优线性MMSE检测计算复杂度高的问题。
- 克服现有基于高斯-赛德尔(GS)的检测器收敛速度慢和硬件复杂度高的问题。
- 设计一种VLSI架构,实现软输出数据检测的高吞吐量、低延迟和面积高效。
- 在减少字长和使用定点算术的前提下,实现接近MMSE的误码率性能,以支持实际硬件部署。
提出的方法
- 使用二项式诺依曼级数展开(NSE)作为初始解,以加速高斯-赛德尔(GS)迭代方法的收敛速度。
- 利用大规模MIMO中MMSE滤波矩阵的对角占优特性,提升收敛速度。
- 采用硬件高效的矩阵压缩/解压缩方案,对正则化格拉姆矩阵进行处理,以减少字长和面积。
- 通过流水线、并行处理以及利用厄米特对称性的低延迟NSE计算单元,优化VLSI架构。
- 将所有乘法运算映射至DSP48切片,并采用15位定点算术,输出精度为10–12位,以降低面积和功耗。
- 提出一种新型迭代GS基算法(IGS),仅需一次迭代(K=1)即可保持高性能,从而实现高吞吐量。
实验结果
研究问题
- RQ1基于二项式NSE的初始解是否能显著加速大规模MIMO检测中GS方法的收敛?
- RQ2与采用K=3次迭代的NSE基方法相比,所提出的IGS算法在K=1次迭代时的性能与复杂度表现如何?
- RQ3哪些关键架构优化实现了基于GS的软输出检测的高吞吐量、低延迟和面积高效?
- RQ4在字长缩减的情况下,定点算术在多大程度上能保持与浮点算术相当的误码率性能?
- RQ5在高系统负载或相关信道等恶劣传播条件下,所提出的检测器性能如何?
主要发现
- 所提出的IGS检测器在Xilinx Virtex-7 FPGA上实现了732 Mb/s的吞吐量,适用于128×8大规模MIMO系统,优于所有对比设计的吞吐量和硬件效率。
- 即使采用定点算术,检测器仍实现了接近MMSE的误码率性能,在0.1%误码率时实现损失小于0.05 dB。
- 所提出的架构在所有对比设计中实现了最高的吞吐量/寄存器文件(FFs)比(9,982 Mb/s per FF)和第二高的吞吐量/LUTs比(6,943 Mb/s per LUT)。
- 采用二项式NSE进行初始化显著减少了收敛时间,尤其在高负载或相关信道条件下效果更明显。
- 优化后的VLSI架构将GS迭代延迟降低一半,支持高达308 MHz的时钟频率,且资源使用量低(35,721 slices,1,850 DSP48s)。
- 即使在K=3次迭代时,吞吐量仍保持在626 Mb/s,表明其在不同系统配置下具备良好的可扩展性和鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。