[論文レビュー] CurvZO: Adaptive Curvature-Guided Sparse Zeroth-Order Optimization for Efficient LLM Fine-Tuning
CurvZO は ZO 微分でのオンライン曲率ガイド付きスパースzeroth-order最適化を導入し、LLM の ZO 微調整中に摂動を適応的に選択することで、精度を向上させ、トレーニング時間を短縮しつつメモリ効率を維持します。
Fine-tuning large language models (LLMs) with backpropagation achieves high performance but incurs substantial memory overhead, limiting scalability on resource-constrained hardware. Zeroth-order (ZO) optimization provides a memory-efficient alternative by relying solely on forward passes, yet it typically suffers from slow or unstable convergence due to high-variance gradient estimates. Sparse ZO updates partially address this issue by perturbing only a subset of parameters, but their effectiveness hinges on selecting informative parameters, which is challenging in ZO optimization because each query yields only scalar feedback. We propose extbf{Adaptive Curvature-Guided Sparse Zeroth-Order Optimization (CurvZO)}, which tracks curvature signals online from scalar ZO feedback and leverages these signals to construct a parameter-wise sampling distribution for selecting coordinates at each update, reducing the variance of the sparse ZO gradient estimator. Moreover, CurvZO dynamically adapts the perturbation budget to the evolving curvature signal distribution, yielding sparse ZO updates that remain both focused and sufficiently exploratory. Extensive experiments on OPT and Llama across diverse NLP tasks show that CurvZO consistently improves fine-tuning performance and reduces training time over ZO baselines. It improves accuracy by up to 4.4 points and achieves up to a $2 imes$ speedup, while preserving memory efficiency.
研究の動機と目的
- 巨大言語モデルのファインチューニングにおけるバックプロパゲーションを回避してメモリ制約に対応する。
- 曲率認識型のスパース摂動戦略を開発し、ZO 最適化における勾配推定量の分散を低減する。
- オンライン曲率信号の追跡と適応摂動予算を提案し、パラメータ選択を誘導する。
- OPT および Llama モデルを diverse な NLP タスクで評価し、性能向上と効率を実証する。
提案手法
- パラメータごと Bernoulli マスクとスパース摂動方向を用いたスパース ZO 設定を定義する。
- 曲率スコア s_i = Delta^2 v_i^2 によるスカラー ZO 反復からオンラインで曲率信号を追跡し、それを正規化・平滑化して S^t を形成する。
- Bernoulli マスキングのバイアスを補正するために v を 1/pi_i でスケーリングした Horvitz–Thompson 再加重を用い、 unbiased 勾配推定量を得る。
- 曲率スコアに基づく平方根依存の分散最小化サンプリング則 pi_i^t ∝ sqrt(S_i^t)(曲率スコアの平方根としての pi_i^t の形で plug in)を導出する。
- 曲率スコア分布の実効サポートサイズとエントロピー(d_eff/d と H)を用いて反復ごとの摂動予算 B を適応させる。
- 標準的な滑らかさ仮定の下で、分散の床を持つ O(1/T) レートと平滑化バイアスを示す収束解析を提供する。
- ブロック単位の曲率追跡に拡張し、G ブロックにパラメータをグループ化して同じサンプリング原理をブロックレベルで適用することでオーバーヘッドを低減する。

実験結果
リサーチクエスチョン
- RQ1スカラー ZO フィードバックからオンラインで推定される曲率情報は、LLM の ZO 微調整におけるスパース摂動スキームを導くことができるか。
- RQ2トレーニング中の探索と活用のバランスを取るために、摂動予算を動的に適応させる方法は何か。
- RQ3曲率ガイド付きスパース ZO 手法は既存の ZO ベースライン(MeZO、DiZO)を上回り、モデル規模を超えてメモリ効率を維持できるか。
- RQ4提案手法 CurvZO は異なるモデルファミリ(OPT、Llama)およびタスクタイプで有効か。
主な発見
- CurvZO は OPT および Llama モデルの diverse な NLP タスクで ZO ベースラインより一貫してファインチューニング性能を向上させる。
- 精度向上は最大 4.4 ポイントに達し、設定によってはトレーニング GPU 時間を半減させつつ、メモリ効率を維持する。
- CurvZO は収束を速め、報告されたベンチマークで MeZO より少ない最適化ステップで目標精度を達成する。
- ブロック単位の曲率追跡は計算オーバーヘッドを削減しつつ効果を維持する。
- CurvZO は LoRA と組み合わせた場合を含めて、いくつかのタスクと設定で first-order 訓練のベースラインと競合する結果を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。