QUICK REVIEW

[論文レビュー] Quad Length Codes for Lossless Compression of e4m3

Aditya Agrawal, Albert Magyar|arXiv (Cornell University)|Feb 19, 2026

Algorithms and Data Compression被引用数 0

ひとこと要約

Quad Length Codesを導入する4長ハイブリッド符号化スキーム。3ビット領域プレフィックスと256エントリのLUTを用いてe4m3データを効率的に圧縮し、Huffmanコードよりもデコードが速く単純になる。

ABSTRACT

Training and serving Large Language Models (LLMs) relies heavily on parallelization and collective operations, which are frequently bottlenecked by network bandwidth. Lossless compression using e.g., Huffman codes can alleviate the issue, however, Huffman codes suffer from slow, bit-sequential decoding and high hardware complexity due to deep tree traversals. Universal codes e.g., Exponential-Golomb codes are faster to decode but do not exploit the symbol frequency distributions. To address these limitations, this paper introduces Quad Length Codes, a hybrid approach designed to balance compression efficiency with decoding speed. The coding scheme uses 3 prefix bits to divide the 256 symbols into 8 areas. Each area has a different code length and encodes a different number of symbols. The scheme uses a Look Up Table with 256 entries, significantly simplifying the hardware implementation compared to Huffman trees. The coding scheme can be adapted for different distributions. For the e4m3 data type, the scheme achieves a compressibility of 13.9% in comparison to 15.9% achieved by Huffman codes, but it significantly speeds up the decoding and simplifies the hardware complexity.

研究の動機と目的

Losslessデータ圧縮によるLLM訓練/サービスにおけるネットワークトラフィックの低減を動機づける。
シンボル頻度分布を活用しつつビット連続でないデコードを可能にする。
小さなLUTベースのエンコーダ/デコーダを備えたハードウェア寄りの符号化スキームを提供する。

提案手法

e4m3テンソル（FFN1/FFN2活性化、重み、勾配）についてのシンボル分布を分析する。
3つのプレフィックスビットを用いて256シンボルを8領域に分割し、4つの長さ（6, 7, 8, 11ビット）の符号長を得ることでQuad Length Codesを設計する。
入力シンボルを確率の減少順に短いコードへ対応させる256エントリのエンダ LUTを実装する。
コード長とオフセットを領域コードを用いて選択する256エントリのデコード LUTを実装する。
Gemma/Gemma似のデータ分布に対してHuffman符号化と比較し、圧縮度とハードウェア複雑度を評価する。

Figure 1: Sorted Probability Mass Function (PMF) of FFN1 activation.

実験結果

リサーチクエスチョン

RQ1固定された4長コード方式が、ハードウェアの単純化とビット連続でないデコードを可能にしつつ、Huffman風の圧縮に近づけるか？
RQ2異なるe4m3分布（活性化、勾配など）に対する領域サイズの適応が圧縮にどう影響するか？
RQ3提案方式の圧縮率とデコード速度/複雑さのトレードオフはどのようになるか？
RQ4活性化、重み、勾配などのテンソルタイプおよびデータ分布に対してQuad Lengthアプローチは移植性があるか？

主な発見

領域	領域コード	シンボル数	#Symbolビット	符号長	シンボル範囲
1	000	8	3	6	0-7
2	001	8	3	6	8-15
3	010	8	3	6	16-23
4	011	8	3	6	24-31
5	100	8	3	6	32-39
6	101	16	4	7	40-55
7	110	32	5	8	56-87
8	111	168	8	11	88-255

FFN1活性化では、Huffmanは15.9%の圧縮率；Quad Length Codesは13.9%（2.0ポイント低い）。
Quad Length方式は4つの符号長（6, 7, 8, 11ビット）を8領域に渡って使用し、256エントリのエンコーダ/デコーダを可能にする。
FFN2活性化分布への適用では別のシンボル頻度を用いて19.0%の圧縮率を得られ、元の8領域Table 1設計の16.7%を上回る。
初期のクアッド方式はHuffman木に比べてハードウェア/デコードの複雑さを削減する一方、圧縮効率には若干の損失がある（主ケースで約2ポイント）。
エンコーダは確率でソートされた256エントリのLUTを構築し、デコードは3ビットの領域プレフィックスを用いて符号長とオフセットを決定し、シンボル回復のための256エントリLUTを用いる。

Figure 2: Huffman code lengths for each symbol.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。