[論文レビュー] One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis
この論文は、複数のコード分析タスクで共有される単一のパラメータ効率的微調整(PEFT)モジュールが、全体のマルチタスク微調整と同等またはそれを上回るパフォーマンスを達成しつつ、学習可能パラメータと計算量を大幅に削減できることを示しています。
Large language models have recently surpassed specialized systems on code generation, yet their effectiveness on other code-analysis tasks remains less clear. At the same time, multi-task learning offers a way to unify diverse objectives within a single model, but fully fine-tuning LLMs across tasks is computationally prohibitive. Parameter-efficient fine-tuning mitigates this cost by updating only a small fraction of weights. Although PEFT has proven effective in single-task settings, its potential for multi-task learning has not yet been systematically explored. We present the first comprehensive evaluation of multi-task PEFT for code analysis, comparing several methods across diverse tasks and model architectures. Our experiments show that a single PEFT module shared across tasks can match, and in some cases surpass, full multi-task fine-tuning, confirming that the benefits of PEFT extend beyond isolated tasks. When comparing single-task and multi-task setups, we find that multi-task PEFT achieves a favorable performance-efficiency trade-off: it delivers accuracy close to single-task fine-tuning while reducing storage requirements, cutting the number of trainable parameters by a factor of the task count, and lowering computation costs by as much as 85%. At the same time, multi-task gains remain sensitive to task grouping. Through task-pairing experiments, we identify key factors shaping outcomes: task stability, model architecture, task complementarity, asymmetry, and dataset quality determine the success of co-fine-tuning. Finally, we benchmark efficient multi-task PEFT against direct prompting of open-source general-purpose LLMs, including DeepSeek, Qwen, Mistral, CodeLlama, and StarCoder. Despite their strong performance in code generation, these models underperform on analysis tasks, where even a 1B-parameter model with multi-task PEFT achieves significantly better results.
研究の動機と目的
- PEFT法がコード分析タスクのマルチタスク学習を効果的に可能にするかを評価する。
- 多様なモデルアーキテクチャとタスクを横断して、マルチタスクPEFTと全体のマルチタスク微調整を比較する。
- タスクのグルーピングやモデルタイプを含む、共微調整の成功に影響を与える要因を特定する。
- コード分析タスクにおいて、オープンソースの一般目的L LMsのゼロショット promptingとマルチタスクPEFTをベンチマークする。
提案手法
- PEFTモジュール(シリアルアダプタ、パラレルアダプタ、LoRA、プレフィックス学習)を用いて、4つのコードLLMバックボーン(UniXcoder-base、CodeT5+ Large、DeepSeek-Coder 1.3B、Qwen2.5-Coder-1.5B)をマルチタスク設定で微調整する。
- エンコーダー編を凍結し、PEFTモジュールとタスク固有ヘッドのみを訓練する。
- 共通のエンコーダとタスクごとヘッドを1つずつ用いたハードパラメータ共有を採用し、入力はローテーション方式のマルチタスクサンプラーでバッチ処理する。
- タスク損失をソフトマックス正規化ウェイトで平滑化する適応的な学習可能損失重みを組み込む。
- 全体微調整(SFT)と大規模指示調整LLMのゼロショット promptingと比較する。

実験結果
リサーチクエスチョン
- RQ1RQ1:PEFT技術はコード分析のマルチタスク学習において有効か。
- RQ2RQ2:マルチタスクPEFTと単一タスクPEFTの性能・効率のトレードオフはどうなるか。
- RQ3RQ3:マルチタスクPEFTの性能に影響を及ぼす要因(タスクの安定性、アーキテクチャ、データセットの類似性など)は何か。
- RQ4RQ4:マルチタスクPEFTは一般目的のLLMsのゼロショット promptingとどのように比較されるか。
主な発見
- マルチタスク学習におけるPEFTは、全体のマルチタスク微調整と競合する性能を示し、クローンおよび脆弱性タスクでは差分が通常±1パーセンタポイントの範囲内。
- 単一タスクPEFTとマルチタスクPEFTは大きな効率性向上を示し、訓練可能パラメータをタスク数とほぼ同じだけ削減。
- シリアルアダプタはタスク全体で最も信頼性が高い;LoRAはコード検索のようなリトリーバル系目的で効果を発揮;プレフィックス学習はこの設定ではしばしば劣る。
- 転移ダイナミクスは結果に大きく影響する:タスクの安定性、モデルアーキテクチャ、タスクの補完性、非対称性、データセット品質が共微調整の成功に影響。
- コンパクトなコード特化バックボーンでのマルチタスクPEFTは、コード分析タスクにおいて大規模な一般目的LLMsのゼロショット promptingを一貫して上回り、ほぼSFTと同等の精度だがストレージ・計算量は低い。
- 4つのバックボーンと4タスクにまたがって、PEFTは精度の大幅な低下なしに有利な効率を達成し、特定の指標では全体微調整を上回ることがある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。