Skip to main content
QUICK REVIEW

[论文解读] CurvZO: Adaptive Curvature-Guided Sparse Zeroth-Order Optimization for Efficient LLM Fine-Tuning

Shuo Wang, Ziyu Chen|arXiv (Cornell University)|Mar 23, 2026
Model Reduction and Neural Networks被引用 0
一句话总结

CurvZO 引入在线曲率引导的稀疏零阶优化,在 ZO 微调大语言模型时自适应选择扰动,提升准确性并缩短训练时间,同时保持内存效率。

ABSTRACT

Fine-tuning large language models (LLMs) with backpropagation achieves high performance but incurs substantial memory overhead, limiting scalability on resource-constrained hardware. Zeroth-order (ZO) optimization provides a memory-efficient alternative by relying solely on forward passes, yet it typically suffers from slow or unstable convergence due to high-variance gradient estimates. Sparse ZO updates partially address this issue by perturbing only a subset of parameters, but their effectiveness hinges on selecting informative parameters, which is challenging in ZO optimization because each query yields only scalar feedback. We propose extbf{Adaptive Curvature-Guided Sparse Zeroth-Order Optimization (CurvZO)}, which tracks curvature signals online from scalar ZO feedback and leverages these signals to construct a parameter-wise sampling distribution for selecting coordinates at each update, reducing the variance of the sparse ZO gradient estimator. Moreover, CurvZO dynamically adapts the perturbation budget to the evolving curvature signal distribution, yielding sparse ZO updates that remain both focused and sufficiently exploratory. Extensive experiments on OPT and Llama across diverse NLP tasks show that CurvZO consistently improves fine-tuning performance and reduces training time over ZO baselines. It improves accuracy by up to 4.4 points and achieves up to a $2 imes$ speedup, while preserving memory efficiency.

研究动机与目标

  • 通过避免反向传播来解决对极大型语言模型微调的内存约束。
  • 开发一个带曲率感知的稀疏扰动策略,以降低 ZO 优化中梯度估计量的方差。
  • 提出在线曲率信号跟踪与自适应扰动预算,以引导参数选择。
  • 在 OPT 与 Llama 模型上对 CurvZO 进行多样化 NLP 任务评估,以证明性能提升和效率。

提出的方法

  • 定义一个带逐参数伯努利掩码和稀疏扰动方向的稀疏 ZO 设置。
  • 使用曲率分数 s_i = Delta^2 v_i^2 对标量 ZO 反馈进行在线曲率信号跟踪,并对其进行归一化/平滑以形成 S^t。
  • 使用 Horvitz–Thompson 重新加权来获得无偏梯度估计量,其中 v 乘以 1/pi_i 以纠正伯努利掩蔽偏差。
  • 推导方差最小化的采样规则 pi_i^t ∝ sqrt(S_i^t)(在实际中表现为 pi_i^t ∝ 曲率分数的平方根)。
  • 用曲率分数分布的有效支持度和熵(d_eff/d 与 H)来动态调整每次迭代的扰动预算 B。
  • 给出在标准光滑性假设下的收敛分析,显示在方差地板和光滑偏差下为 O(1/T) 的收敛速率。
  • 扩展为分块曲率跟踪,通过将参数分组为 G 个块并在块层面应用相同的采样原则来降低开销。
Figure 1 : Visualization of anisotropic local curvature in the attention output weights of OPT-6.7B. The $x$ - and $y$ -axes index the columns and rows of the weight matrix, while the $z$ -axis shows curvature magnitude approximated via the diagonal Fisher information (a standard local-curvature sur
Figure 1 : Visualization of anisotropic local curvature in the attention output weights of OPT-6.7B. The $x$ - and $y$ -axes index the columns and rows of the weight matrix, while the $z$ -axis shows curvature magnitude approximated via the diagonal Fisher information (a standard local-curvature sur

实验结果

研究问题

  • RQ1曲线信息(从标量 ZO 反馈在线估计)是否能引导稀疏扰动方案,从而改进对 LLM 的 ZO 微调?
  • RQ2我们如何动态调整扰动预算,以在训练中平衡探索与开发(利用)?
  • RQ3曲率引导的稀疏 ZO 方法是否优于现有 ZO 基线(MeZO、DiZO),并在模型规模上保持内存效率?
  • RQ4所提出的 CurvZO 方法是否在不同模型家族(OPT、Llama)和任务类型中都有效?

主要发现

  • CurvZO 在 OPT 与 Llama 模型的多样 NLP 任务上对 ZO 基线的微调性能具有一致的提升。
  • 在某些设置中可实现高达4.4个百分点的精度提升,且可将训练 GPU 小时减少一半,同时保持内存效率。
  • CurvZO 展现出更快的收敛性,在报告的基准中比 MeZO 更早达到目标精度。
  • 分块曲率跟踪在降低计算开销的同时仍保持有效性。
  • 在若干任务和设置下,CurvZO 能与有第一阶梯梯度训练基线相媲美,尤其是与 LoRA 结合时。
Figure 2 : Accuracy (%) on fine-tuning Llama2-7B (top) and Llama2-13B (bottom) with 1,000 training samples.
Figure 2 : Accuracy (%) on fine-tuning Llama2-7B (top) and Llama2-13B (bottom) with 1,000 training samples.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。