QUICK REVIEW

[논문 리뷰] POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Zeju Qiu, Lixin Liu|arXiv (Cornell University)|2026. 03. 05.

Topic Modeling인용 수 0

한 줄 요약

POET-X는 직교 등가 변환을 사용하여 기억 비용과 계산을 크게 줄이면서도 안정적인 LLM 프리트레이닝을 가능하게 하는 POET의 확장형으로, 단일 Nvidia H100 GPU에서 10억 매개변수 모델에 대해 검증되었습니다.

ABSTRACT

Efficient and stable training of large language models (LLMs) remains a core challenge in modern machine learning systems. To address this challenge, Reparameterized Orthogonal Equivalence Training (POET), a spectrum-preserving framework that optimizes each weight matrix through orthogonal equivalence transformation, has been proposed. Although POET provides strong training stability, its original implementation incurs high memory consumption and computational overhead due to intensive matrix multiplications. To overcome these limitations, we introduce POET-X, a scalable and memory-efficient variant that performs orthogonal equivalence transformations with significantly reduced computational cost. POET-X maintains the generalization and stability benefits of POET while achieving substantial improvements in throughput and memory efficiency. In our experiments, POET-X enables the pretraining of billion-parameter LLMs on a single Nvidia H100 GPU, and in contrast, standard optimizers such as AdamW run out of memory under the same settings.

연구 동기 및 목표

직교 등가 변환(OET)을 통해 LLM의 훈련 안정성 및 일반화 향상.
성능을 희생하지 않으면서 POET의 메모리 사용량 및 계산 오버헤드 감소.
POET-X의 대규모 프리트레이닝을 일반 소비자급 또는 제한된 하드웨어에서의 실용성 시연.

제안 방법

각 가중치 행렬에 직교 등가 변환을 적용하여 스펙트럼을 보존하는 POET 프레임워크.
POET-X에서 계산 비용을 줄인 OET를 구현하도록 훈련 재설계.
안정성과 일반화를 유지하면서 처리량을 가속하고 메모리 사용을 낮춤.
단일 Nvidia H100 GPU에서 10억 매개변수 LLM의 프리트레이닝으로 확장성 시연."],
research_questions:[

실험 결과

연구 질문

RQ1POET-X가 원래 POET의 안정성과 일반화 이점을 significantly 유지하면서 계산 및 메모리 요구를 크게 줄일 수 있는가?
RQ2AdamW와 같은 표준 최적화기가 메모리 한계를 넘는 경우에도 POET-X를 사용하여 단일 H100 GPU에서 10억 매개변수 LLM을 프리트레이닝하는 것이 가능한가?
RQ3원래 POET 및 기존 최적화 기법에 비해 훈련 처리량과 메모리 효율성에 대한 POET-X의 효과는 무엇인가?

주요 결과

POET-X는 원래 POET 프레임워크의 안정성 및 일반화 이점을 유지합니다.
POET-X는 기준 POET 구현에 비해 계산 비용과 메모리 사용을 크게 감소시킵니다.
POET-X는 한 대의 Nvidia H100 GPU에서 10억 매개변수 LLM의 프리트레이닝을 가능하게 합니다.
동일한 설정에서 AdamW와 같은 표준 최적화기는 메모리 한계에 도달합니다.
이 접근법은 성능 특성을 유지하면서 처리량 및 메모리 효율성을 개선합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.