[논문 리뷰] CurvZO: Adaptive Curvature-Guided Sparse Zeroth-Order Optimization for Efficient LLM Fine-Tuning
CurvZO는 LLM의 ZO 미세조정 중에 perturbations를 적응적으로 선택하기 위한 온라인 곡률 가이드 희소 제로차원 최적화를 도입하여 정확도를 향상시키고 학습 시간을 단축시키며 메모리 효율성을 유지합니다.
Fine-tuning large language models (LLMs) with backpropagation achieves high performance but incurs substantial memory overhead, limiting scalability on resource-constrained hardware. Zeroth-order (ZO) optimization provides a memory-efficient alternative by relying solely on forward passes, yet it typically suffers from slow or unstable convergence due to high-variance gradient estimates. Sparse ZO updates partially address this issue by perturbing only a subset of parameters, but their effectiveness hinges on selecting informative parameters, which is challenging in ZO optimization because each query yields only scalar feedback. We propose extbf{Adaptive Curvature-Guided Sparse Zeroth-Order Optimization (CurvZO)}, which tracks curvature signals online from scalar ZO feedback and leverages these signals to construct a parameter-wise sampling distribution for selecting coordinates at each update, reducing the variance of the sparse ZO gradient estimator. Moreover, CurvZO dynamically adapts the perturbation budget to the evolving curvature signal distribution, yielding sparse ZO updates that remain both focused and sufficiently exploratory. Extensive experiments on OPT and Llama across diverse NLP tasks show that CurvZO consistently improves fine-tuning performance and reduces training time over ZO baselines. It improves accuracy by up to 4.4 points and achieves up to a $2 imes$ speedup, while preserving memory efficiency.
연구 동기 및 목표
- 역전파를 피함으로써 매우 큰 언어 모델의 미세조정에서 메모리 제약을 해결한다.
- 제로 차원 최적화에서 그래디언트 추정기의 분산을 줄이기 위해 곡률 인식 희소 섭동 전략을 개발한다.
- 매개변수 선택을 안내하기 위해 온라인 곡률 신호 추적 및 적응형 섭동 예산 책정을 제안한다.
- 다양한 NLP 작업에서 OPT 및 Llama 모델에 대해 CurvZO를 평가하여 성능 향상과 효율성을 보여준다.
제안 방법
- 매개변수별 Bernoulli 마스크와 희소 섭동 방향을 갖는 희소 ZO 설정을 정의한다.
- 스칼라 ZO 피드백으로부터 곡률 신호를 추적하며 곡률 점수 s_i = Delta^2 v_i^2를 사용하고 이를 정규화하고 매끄럽게 하여 S^t를 형성한다.
- Bernoulli 마스킹 바이어스를 보정하기 위해 1/pi_i로 스케일된 v를 사용하여 편향 없는 그래디언트 추정기를 얻기 위해 Horvitz–Thompson 재가중화를 적용한다.
- 분산 최소화 샘플링 규칙 pi_i^t ∝ sqrt(S_i^t)를 도출한다(곡률 점수의 제곱근에 비례하도록 대입).
- 유효 지원 크기와 곡률 점수 분포의 엔트로피(d_eff/d 및 H)을 이용해 매 이터레이션의 섭동 예산 B를 조정한다.
- 표준 매끄러움 가정 하에 분산 바닥까지 O(1/T) 수렴 속도와 평활화 편향을 보이는 수렴 분석을 제공한다.
- 블록 단위 곡률 추적로 확장하여 파라미터를 G블록으로 묶고 블록 수준에서 동일한 샘플링 원리를 적용하여 오버헤드를 줄인다.

실험 결과
연구 질문
- RQ1스칼라 ZO 피드백으로 온라인에서 추정된 곡률 정보가 LLM의 ZO 미세조정을 개선하기 위한 희소 섭동 스키마를 안내할 수 있을까?
- RQ2학습 중 탐색과 활용의 균형을 맞추기 위해 섭동 예산을 어떻게 동적으로 적응시킬 수 있을까?
- RQ3곡률 가이드 희소 ZO 방식이 기존 ZO 기준선(MeZO, DiZO)보다 더 나은 성능을 보이고 모델 규모에 걸쳐 메모리 효율성을 유지하는가?
- RQ4제안된 CurvZO 방법이 다양한 모델 계열(OPT, Llama)과 작업 유형에서 효과적이며?
주요 결과
- CurvZO는 다양한 NLP 작업에서 OPT 및 Llama 모델의 미세조정 성능을 ZO 기준선보다 일관되게 향상시킨다.
- 정확도는 최대 4.4포인트 증가를 보이고 일부 설정에서 학습 GPU 시간을 절반으로 줄일 수 있으며, 메모리 효율성은 유지된다.
- CurvZO는 수렴이 더 빠르며 보고된 벤치마크에서 MeZO보다 더 적은 최적화 단계로 목표 정확도에 도달한다.
- 블록 단위 곡률 추적은 효과를 유지하면서 계산 오버헤드를 줄인다.
- 다수의 작업과 설정에서 CurvZO는 로라(LoRA)와 결합될 때 특히 1차(첫째 차수) 학습 기준선과 경쟁력 있는 결과를 얻는다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.