QUICK REVIEW

[논문 리뷰] Robust and Efficient Zeroth-Order LLM Fine-Tuning via Adaptive Bayesian Subspace Optimizer

Jian Feng, Zhihong Huang|arXiv (Cornell University)|2026. 01. 04.

Metaheuristic Optimization Algorithms Research인용 수 0

한 줄 요약

BSZO는 Kalman 필터링으로 다 방향 그래디언트 정보를 모으는 베이지안 서브스페이스 제로차 순서 최적화기로, LLM 미세조정의 수렴성과 견고성을 향상시키면서 메모리 사용량은 낮게 유지합니다.

ABSTRACT

Fine-tuning large language models (LLMs) with zeroth-order (ZO) optimization reduces memory by approximating gradients through function evaluations. However, existing methods essentially perform updates in a one-dimensional space, and suffer from collapse or substantial performance degradation under low-precision training. We introduce BSZO, an adaptive extbf{B}ayesian extbf{S}ubspace extbf{Z}eroth-Order extbf{O}ptimizer, which applies Kalman filtering to combine finite-difference information across multiple perturbation directions within a subspace. By treating each finite-difference measurement as a noisy observation, BSZO builds a posterior distribution over the subspace-projected gradient and updates it through Bayesian inference, with a residual-based adaptive mechanism to adapt to noise variations. Theoretical analysis shows that BSZO improves the convergence rate by a factor of $k/γ$ compared to standard ZO methods. Experiments on RoBERTa, Mistral, and OPT models show that BSZO outperforms the baselines across various tasks, achieving up to 6.67\% absolute average improvement on OPT-13B while remaining robust under fp16/bf16 precision and keeping memory usage close to inference-only baselines (1.00$ imes$--1.08$ imes$ of MeZO).

연구 동기 및 목표

대규모 언어 모델의 역전파 기반 그래디언트 없이 메모리 효율적인 미세조정을 동기화합니다.
저정밀 학습에서 기존 제로차(order) 방법의 불안정성과 성능 저하를 해결합니다.
Bayesian 추론을 통해 여러 perturbation 방향에서 유한 차이 신호를 융합하도록 BSZO를 제안합니다.
RoBERTa, Mistral, OPT 모델에 대한 이론적 수렴 보장 및 실험적 검증을 제공합니다.

제안 방법

k개의 무작위 방향을 샘플링하여 k-차원 서브스페이스를 형성하고 프로젝션된 그래디언트를 잠재 변수로 모델링합니다.
각 유한 차이 측정치를 정규화된 서브스페이스 그래디언트의 노이즈가 섞인 선형 관측으로 간주하고 Kalman filtering을 통해 Gaussian 후방분포를 업데이트합니다.
학습 중 관측 잡음 분산을 동적으로 조정하는 잔차 기반 적응 기법을 사용합니다.
서브스페이스의 후방 평균을 내려가며 매 배치마다 k번의 업데이트를 수행하도록 파라미터를 업데이트합니다.
초기 perturbation 결과를 캐시하고 재사용하여 순방향 패스를 줄이며, 낮은 정밀도에서 탐색 공간을 더 잘 포착하기 위해 기본 버전(BSZO-B)에서 추가적인 순방향 패스를 선택적으로 수행합니다.

실험 결과

연구 질문

RQ1제로차 LLM 미세조정이 다중 perturbation 방향에서 정보를 집계함으로써 안정화되고 데이터 효율이 향상될 수 있는가?
RQ2서브스페이스로 투영된 그래디언트에 대한 Kalman 필터링 기반의 베이지안 추론이 fp16/bf16 정밀도에서 수렴 속도와 견고성을 개선하는가?
RQ3BSZO가 기존 제로차 및 일차 최적화 방법과 비교해 메모리 및 계산에서 어떤 트레이드오프를 가지는가?
RQ4적응적 잔차 기반 노이즈 추정이 모델 규모 및 작업에 따라 성능에 어떤 영향을 미치는가?

주요 결과

BSZO는 RoBERTa, OPT, Mistral 모델에서 안정적이고 경쟁력 있는 정확도를 달성하며 여러 작업에서 종종 베이스라인을 능가합니다.
수렴 속도는 표준 ZO 방법과 비교하여 이론적으로 k/γ 배로 개선됩니다.
BSZO의 메모리 사용은 추론 전용 베이스라인(1.00×–1.08× MeZO)과 가까우며 HiZOO 및 MeZO-Adam에 비해 훨씬 더 메모리 효율적입니다.
감소된 정밀도에서 BSZO 및 BSZO-B는 견고하게 작동하는 반면, 몇몇 베이스라인은 붕괴되거나 현저히 저하됩니다.
디코더 전용 모델에서 BSZO는 일관되게 최상위 또는 근사 최상위 평균 정확도를 달성하며, 모델 크기가 커질수록 더 큰 이점을 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.