[论文解读] POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation
POET-X 是 POET 的一种可扩展、内存高效的变体,使用正交等价变换实现稳定的 LLM 预训练,能够在单个 Nvidia H100 GPU 上对十亿参数模型进行演示,显著降低内存与计算需求。
Efficient and stable training of large language models (LLMs) remains a core challenge in modern machine learning systems. To address this challenge, Reparameterized Orthogonal Equivalence Training (POET), a spectrum-preserving framework that optimizes each weight matrix through orthogonal equivalence transformation, has been proposed. Although POET provides strong training stability, its original implementation incurs high memory consumption and computational overhead due to intensive matrix multiplications. To overcome these limitations, we introduce POET-X, a scalable and memory-efficient variant that performs orthogonal equivalence transformations with significantly reduced computational cost. POET-X maintains the generalization and stability benefits of POET while achieving substantial improvements in throughput and memory efficiency. In our experiments, POET-X enables the pretraining of billion-parameter LLMs on a single Nvidia H100 GPU, and in contrast, standard optimizers such as AdamW run out of memory under the same settings.
研究动机与目标
- 通过正交等价变换(OET)提升 LLM 的训练稳定性与泛化性。
- 在不牺牲性能的前提下,减少 POET 的内存占用与计算开销。
- 展示 POET-X 在通用或受限硬件上的大规模预训练的可行性。
提出的方法
- 对每个权重矩阵应用正交等价变换以保持谱特性(POET 框架)。
- 重新设计训练以在 POET-X 中以降低计算成本实现 OET。
- 在提升吞吐量、降低内存使用的同时保持稳定性与泛化能力。
- 通过在单个 Nvidia H100 GPU 上对十亿参数 LLMs 进行预训练,展示可扩展性。
实验结果
研究问题
- RQ1POET-X 能否在显著降低计算和内存需求的同时保持原 POET 的稳定性和泛化优势?
- RQ2在单个 H100 GPU 上使用 POET-X 预训练十亿参数的 LLM 是否可行,而如 AdamW 这样的标准优化器会超出内存?
- RQ3与原始 POET 及传统优化器相比,POET-X 在训练吞吐量与内存效率方面的影响如何?
主要发现
- POET-X 保持了原始 POET 框架的稳定性和泛化优势。
- 与基线 POET 实现相比,POET-X 显著降低了计算成本和内存使用。
- POET-X 使在单个 Nvidia H100 GPU 上对十亿参数 LLMs 的预训练成为可能。
- 在相同设置下,像 AdamW 这样的标准优化器会耗尽内存。
- 该方法在提升吞吐量和内存效率的同时,保持了性能特性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。