[論文レビュー] SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning
SWIFT は、オープンソースのフレームワークで、300以上のLLMと50以上のMLLMのトレーニング、ファインチューニング、ポストトレーニング処理、およびデプロイを統合し、統合評価と量子化を備えた軽量なマルチモーダルモデルのチューニングを実現します。
Recent development in Large Language Models (LLMs) and Multi-modal Large Language Models (MLLMs) have leverage Attention-based Transformer architectures and achieved superior performance and generalization capabilities. They have since covered extensive areas of traditional learning tasks. For instance, text-based tasks such as text-classification and sequence-labeling, as well as multi-modal tasks like Visual Question Answering (VQA) and Optical Character Recognition (OCR), which were previously addressed using different models, can now be tackled based on one foundation model. Consequently, the training and lightweight fine-tuning of LLMs and MLLMs, especially those based on Transformer architecture, has become particularly important. In recognition of these overwhelming needs, we develop SWIFT, a customizable one-stop infrastructure for large models. With support of over $300+$ LLMs and $50+$ MLLMs, SWIFT stands as the open-source framework that provide the most comprehensive support for fine-tuning large models. In particular, it is the first training framework that provides systematic support for MLLMs. In addition to the core functionalities of fine-tuning, SWIFT also integrates post-training processes such as inference, evaluation, and model quantization, to facilitate fast adoptions of large models in various application scenarios. With a systematic integration of various training techniques, SWIFT offers helpful utilities such as benchmark comparisons among different training techniques for large models. For fine-tuning models specialized in agent framework, we show that notable improvements on the ToolBench leader-board can be achieved by training with customized dataset on SWIFT, with an increase of 5.2%-21.8% in the Act.EM metric over various baseline models, a reduction in hallucination by 1.6%-14.1%, and an average performance improvement of 8%-17%.
研究の動機と目的
- 大規模言語モデルとマルチモーダルモデルのための統一された、軽量なトレーニングおよびファインチューニングパイプラインの必要性に対応する。
- Transformerベースのフレームワーク内で、テキストLLMと同様にMLLMsへ体系的なサポートを提供する。
- 推論、評価、量子化といったポストトレーニングプロセスを統合し、アプリケーションへの迅速な適用を促進する。
- トレーニング手法と結果を比較するためのチューニング技法とデプロイ/評価ツールの一連を提供する。
提案手法
- PEFTとOptimumと統合された、事前トレーニング、ファインチューニング、ヒューマンアライメントのためのTransformer互換トレーニングフレームワークとしてSWIFTを導入する。
- 6種類の量子化タイプ(BNB、HQQ、EETQ、AWQ、GPTQ、AQLM)とQLoRAスタイルのトレーニングをサポートする。
- PEFTを超えるチューンナー(例: LLaMA-Pro、LongLoRA、LISA、DoRA、rsLoRA)を組み込み、prepare_modelとfrom_pretrainedを介してインターフェースの混在・統合を可能にする。
- トレーニング、推論、評価、デプロイメントの道筋を提供し、Megatronベースの事前トレーニングサポートと長いシーケンスのシーケンス並列性を含む。
- テキストおよびマルチモーダルデータを扱う拡張可能なデータセットとテンプレートシステムを提供し、ToolBenchおよびAgentFlanスタイルのデータセットによるエージェント特化のファインチューニングをサポートする。
- Web UI(Gradio)とコマンドラインインターフェースを公開し、エンドツーエンドのワークフロー(pt、sft、rlhf)とOpenAI互換の推論APIを提供する。

実験結果
リサーチクエスチョン
- RQ11つのオープンソースフレームワークで、テキストLLMとマルチモーダルLLMのトレーニングとファインチューニングの両方を効率的にサポートするにはどうすればよいか?
- RQ2メモリ、スピード、精度の間で、モデル間の最良のトレードオフを提供する軽量なチューニング技法は何か?
- RQ3推論、評価、量子化といったポストトレーニングプロセスを統合して、大規模モデルのデプロイを円滑化するにはどうすればよいか?
- RQ4専用データセットとロススケーリング戦略を用いて、エージェント関連のファインチューニングでどのような改善が達成できるか?
主な発見
- SWIFTは300以上のNLPモデルと50以上のマルチモーダルモデル、さらには150以上のデータセットをサポートします。
- 軽量チューニングのベンチマークでは、LISAがチューンナーの中で最も低いメモリ使用量と最速の速度を達成しました。
- LoRA+、GaLore、Q-GaLoreは、qwen-7b-chatやLLaMA3-8b-instructのようなモデルで強力な性能向上とメモリ/速度プロファイルを示しました。
- エージェント訓練の実験は、ロススケールがIn-domainおよびOut-of-domain設定のPlan.EM、Act.EM、Hallucination rate、その他の指標を大幅に改善することを示しています。
- In-domain Qwen2-7b-instruct ToolBenchのLoRA/OursおよびFull(Ours)は、いくつかの指標でベースラインGPT-4を上回り、平均改善が約8-17%と報告されています。
- このフレームワークは、複数のLoRA推論とデプロイ、柔軟なバックエンド(vLLM、PT)、マルチモーダルタスク向けのテンプレートベースのデータ処理をシームレスに可能にします。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。