[논문 리뷰] SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning
SWIFT는 300개 이상의 LLM과 50개 이상의 MLLM에 대한 학습, 미세 조정, 사후 학습 프로세스 및 배포를 통합하는 오픈 소스 프레임워크로, 경량의 멀티모달 모델 튜닝과 통합 평가 및 양자화가 가능하게 합니다.
Recent development in Large Language Models (LLMs) and Multi-modal Large Language Models (MLLMs) have leverage Attention-based Transformer architectures and achieved superior performance and generalization capabilities. They have since covered extensive areas of traditional learning tasks. For instance, text-based tasks such as text-classification and sequence-labeling, as well as multi-modal tasks like Visual Question Answering (VQA) and Optical Character Recognition (OCR), which were previously addressed using different models, can now be tackled based on one foundation model. Consequently, the training and lightweight fine-tuning of LLMs and MLLMs, especially those based on Transformer architecture, has become particularly important. In recognition of these overwhelming needs, we develop SWIFT, a customizable one-stop infrastructure for large models. With support of over $300+$ LLMs and $50+$ MLLMs, SWIFT stands as the open-source framework that provide the most comprehensive support for fine-tuning large models. In particular, it is the first training framework that provides systematic support for MLLMs. In addition to the core functionalities of fine-tuning, SWIFT also integrates post-training processes such as inference, evaluation, and model quantization, to facilitate fast adoptions of large models in various application scenarios. With a systematic integration of various training techniques, SWIFT offers helpful utilities such as benchmark comparisons among different training techniques for large models. For fine-tuning models specialized in agent framework, we show that notable improvements on the ToolBench leader-board can be achieved by training with customized dataset on SWIFT, with an increase of 5.2%-21.8% in the Act.EM metric over various baseline models, a reduction in hallucination by 1.6%-14.1%, and an average performance improvement of 8%-17%.
연구 동기 및 목표
- 대형 언어 모델과 멀티모달 모델을 위한 통합적이고 경량의 학습 및 미세 조정 파이프라인의 필요성에 대응한다.
- Transformer 기반 프레임워크 내에서 텍스트 LLM뿐만 아니라 MLLMs에 대한 체계적 지원을 제공한다.
- 애플리케이션에서의 빠른 채택을 촉진하기 위해 추론, 평가, 양자화 등 포스트 트레이닝 프로세스를 통합한다.
- 훈련 방식과 결과를 비교하기 위한 튜닝 기법과 배포/평가 도구의 세트를 제공한다.
제안 방법
- SWIFT를 PEFT 및 Optimum과 통합된 Transformer 호환 학습 프레임워크로 소개하여 사전 학습, 미세 조정 및 인간 정렬에 활용한다.
- 여섯 가지 양자화 유형(BNB, HQQ, EETQ, AWQ, GPTQ, AQLM)과 QLoRA 스타일의 학습을 지원한다.
- PEFT를 넘어선 튜너들(LLaMA-Pro, LongLoRA, LISA, DoRA, rsLoRA 등)을 도입하고 prepare_model 및 from_pretrained를 통해 인터페이스를 혼합/통합한다.
- Megatron 기반의 사전 학습 지원 및 긴 시퀀스를 위한 시퀀스 병렬화를 포함한 학습, 추론, 평가 및 배포 경로를 제공한다.
- 텍스트 및 멀티모달 데이터 처리를 위한 확장 가능한 데이터 세트와 템플릿 시스템을 제공하고 도구 벤치 및 AgentFlan 스타일 데이터 세트를 통한 에이전트 중심의 미세 조정을 전문적으로 지원한다.
- 웹 UI(Gradio) 및 명령줄 인터페이스를 제공하여 PT, SFT, RLHF 등 엔드 투 엔드 워크플로우와 OpenAI 호환 추론 API를 지원한다.

실험 결과
연구 질문
- RQ1단일 오픈 소스 프레임워크가 텍스트 LLM과 멀티모달 LLM의 학습 및 미세 조정을 어떻게 효율적으로 지원할 수 있는가?
- RQ2메모리, 속도, 정확도 간의 최적의 트레이드오프를 제공하는 경량 튜닝 기법은 모델별로 어떤 차이를 보이는가?
- RQ3포스트 트레이닝 프로세스(추론, 평가, 양자화)를 어떻게 통합하여 대형 모델의 배포를 간소화할 수 있는가?
- RQ4전용 데이터세트와 손실 스케일링 전략으로 에이전트 관련 미세 조정에서 어떤 개선이 얻어질 수 있는가?
주요 결과
- SWIFT는 300개 이상의 NLP 모델과 50개 이상의 멀티모달 모델, 150개 이상의 데이터 세트를 지원한다.
- 경량 튜닝 벤치마크에서 LISA가 튜너들 중 가장 낮은 메모리 사용과 가장 빠른 속도를 달성했다.
- LoRA+, GaLore, Q-GaLore는 qwen-7b-chat 및 LLaMA3-8b-instruct와 같은 모델에서 강력한 성능 향상과 메모리/속도 프로파일을 보여주었다.
- 에이전트 훈련 실험에서 손실 스케일링은 Plan.EM, Act.EM, Hallucination 비율 및 도메인 내외 설정에서 다른 메트릭을 크게 개선하였다.
- 도메인 내 Qwen2-7b-instruct ToolBench 결과에서 LoRA/Ours 및 Full(Ours)가 여러 메트릭에서 기본 GPT-4를 능가했으며 평균 개선 폭은 약 8-17%로 보고되었다.
- 이 프레임워크는 다중 LoRA 추론 및 배포, 유연한 백엔드(vLLM, PT) 및 멀티모달 작업을 위한 템플릿 기반 데이터 처리를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.