QUICK REVIEW

[論文レビュー] Tb/s Polar Successive Cancellation Decoder 16nm ASIC Implementation

Altuğ Süral, E. Göksu Sezer|arXiv (Cornell University)|Sep 20, 2020

Error Correcting Code Techniques被引用数 7

ひとこと要約

本論文は、16nm FinFET技術における最適化された極性逐次キャンセレーション（OPSC）デコーダのASIC実装を提示している。0.79 mm² の面積で1.2 Tb/sの符号化スループットと0.95 pJ/bitのエネルギー効率を達成した。本設計は、適応的LLR量子化とレジスタ削減／バランス化を活用し、パイプライン化とアンローリングにより面積と消費電力を最小限に抑えつつ、超高速スループットを実現した。これは、配置・配線後のASIC結果で1 Tb/sを超える最初の極性デコーダである。

ABSTRACT

This work presents an efficient ASIC implementation of successive cancellation (SC) decoder for polar codes. SC is a low-complexity depth-first search decoding algorithm, favorable for beyond-5G applications that require extremely high throughput and low power. The ASIC implementation of SC in this work exploits many techniques including pipelining and unrolling to achieve Tb/s data throughput without compromising power and area metrics. To reduce the complexity of the implementation, an adaptive log-likelihood ratio (LLR) quantization scheme is used. This scheme optimizes bit precision of the internal LLRs within the range of 1-5 bits by considering irregular polarization and entropy of LLR distribution in SC decoder. The performance cost of this scheme is less than 0.2 dB when the code block length is 1024 bits and the payload is 854 bits. Furthermore, some computations in SC take large space with high degree of parallelization while others take longer time steps. To optimize these computations and reduce both memory and latency, register reduction/balancing (R-RB) method is used. The final decoder architecture is called optimized polar SC (OPSC). The post-placement-routing results at 16nm FinFet ASIC technology show that OPSC decoder achieves 1.2 Tb/s coded throughput on 0.79 mm$^2$ area with 0.95 pJ/bit energy efficiency.

研究の動機と目的

Tb/sスループットを実現する極性符号デコーディングを、5G以降の通信および高速データセンター応用に適用すること。
ASIC実装において、低消費電力および低面積で超高速スループットを達成する課題に対処すること。
逐次キャンセレーション（SC）デコーディングの実装複雑性を、適応的量子化とレジスタ最適化により低減すること。
16nm FinFET技術に適したスケーラブルで高効率な極性デコーダアーキテクチャを実証すること。

提案手法

1.2 GHzのクロック周波数で高スループット動作を可能にするパイプライン化およびアンロールドアーキテクチャを採用した。
LLR分布のエントロピーと極化の不規則性に基づき、内部ビット精度（1〜5ビット）を動的に調整する適応的対数尤度比（LLR）量子化方式を実装した。
パイプライン段階の遅延を均一化し、クロック周波数を向上させるとともに、面積と消費電力を低減するため、レジスタ削減／バランス化（R-RB）を適用した。
単純な符号セグメントのデコーディングを高速化するためのハードウェアショートカット（R0, R1, SPC, REP）を統合した。
ハイブリッドデコーディング戦略を採用：複雑なセグメントには標準SC、SPC/REPノードにはWagner/MAPデコーダを適用し、面積オーバーヘッドを最小限に抑えつつ性能を向上させた。
TSMC 16nmライブラリとシグネチャ・オフタイミングを用い、Cadence Innovusを用いて合成、配置、クロックツリー合成、ルーティング最適化を含むフル物理設計フローを実施した。

実験結果

リサーチクエスチョン

RQ116nm ASICで、妥当な消費電力と面積効率を満たしつつ、極性SCデコーダがTb/sスループットを達成できるか？
RQ2適応的LLR量子化は、性能損失をほとんど与えずに実装複雑性を低減できるか？
RQ3レジスタ削減／バランス化（R-RB）は、深くパイプライン化されたデコーダにおいて、クロック周波数の向上と面積低減にどの程度寄与できるか？
RQ4提案されたOPSCアーキテクチャは、最先端の極性デコーダ実装と比較して、性能、面積、エネルギー効率の点でどの程度優れているか？

主な発見

OPSCデコーダは、16nm FinFET技術で0.79 mm² の面積で1.2 Tb/sの符号化スループット、0.95 pJ/bitのエネルギー効率を達成した。
FPGAプロトタイプは、8 dBのEb/Noで200 Gb/sのスループットと1.1 × 10⁻¹³のビット誤り率を達成し、低誤り率での性能を実証した。
適応的LLR量子化により、内部精度が1〜5ビットにまで低減され、(1024, 854)コードで性能損失が0.2 dB未満に抑えられた。
設計はレジスタ主導（面積の69.8％を占める）であるが、R-RBによりパイプライン段階が効果的にバランスされ、1.2 GHz動作が可能となった。
配置・配線後（Post-P&R）の結果では、1554 Gb/s/mm²の面積効率を達成し、次に優れた実装の10倍の効率を示した。
実物ASICと比較して、OPSCは16倍の高いスループット、7.2倍の低い遅延、10倍の優れた面積効率を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。