[論文レビュー] PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback
PanGu-Coder2 は RRTF を導入し、StarCoder 15B で、HumanEval、CoderEval、LeetCode のベンチマーク全体で最先端のコード生成性能を達成するランキングフィードバックに基づくファインチューニングフレームワークを提供。
Large Language Models for Code (Code LLM) are flourishing. New and powerful models are released on a weekly basis, demonstrating remarkable performance on the code generation task. Various approaches have been proposed to boost the code generation performance of pre-trained Code LLMs, such as supervised fine-tuning, instruction tuning, reinforcement learning, etc. In this paper, we propose a novel RRTF (Rank Responses to align Test&Teacher Feedback) framework, which can effectively and efficiently boost pre-trained large language models for code generation. Under this framework, we present PanGu-Coder2, which achieves 62.20% pass@1 on the OpenAI HumanEval benchmark. Furthermore, through an extensive evaluation on CoderEval and LeetCode benchmarks, we show that PanGu-Coder2 consistently outperforms all previous Code LLMs.
研究の動機と目的
- 人間に近いアラインメント信号の下で正しく効率的なコードを生成する Code LLM の改善を動機づける。
- コード生成タスクのデータ効率の良い、モデルに依存しないトレーニング・パラダイム(RRTF)を提案する。
- コードタスクにおいてランキングベースのフィードバックが従来の報酬ベース RL 手法を上回ることを実証する。
- 複数のベンチマークでの PanGu-Coder2 の優れた性能を示し、データおよびトレーニングのダイナミクスを分析する。
提案手法
- RRTF を提案する:コード LLM のためのサンプリング、ランキング、トレーニングの三段階フレームワーク。
- Evol-Instruct を用いて複数ソースからプロンプトと応答を生成する。
- ユニットテストとヒューリスティックな好みを用いて応答をランキングし、トレーニング信号を作成する。
- ランキングと教師付きファインチューニングの損失で 15B デコーダーのみモデルを訓練する。
- leak を避けるよう慎重なデータ整備を伴う Evol-Instruct 派生コーパスで事前学習を行う。
- HumanEval、CoderEval、LeetCode ベンチマークで pass@k により評価する。
実験結果
リサーチクエスチョン
- RQ1ランキングベースのフィードバック(RRTF)は、従来の RL ベースの方法と比べて Code LLM のコード生成品質を改善するか。
- RQ2RRTF で訓練された 15B デコーダーのみモデルは標準ベンチマークで最先端のコード生成性能を達成できるか。
- RQ3データセットサイズと学習エポック数は PanGu-Coder2 の性能と収束にどう影響するか。
- RQ4コードモデルに RRTF を適用する際の推論とデータ効率性の考慮事項は何か。
主な発見
| モデル | パラメータ | Pass@1 (%) | Pass@10 (%) | Pass@100 (%) |
|---|---|---|---|---|
| PanGu-Coder2 | 15B | 61.64 | 79.55 | 91.76 |
| WizardCoder | 15B | 57.30 | 73.32 | 90.46 |
| StarCoder | 15B | 33.60 | 45.78 | 79.82 |
- PanGu-Coder2 は Open-source モデルの中で HumanEval(グリーディデコーディング)で 61.64%(pass@1)、79.55%(pass@10)、91.76%(pass@100)を達成。
- PanGu-Coder2 は HumanEval、CoderEval、LeetCode において greedy decoding の結果で WizardCoder および StarCoder を上回る。
- PanGu-Coder2 は HumanEval で 62.20%(pass@1)、CoderEval で 38.26%、LeetCode(easy/medium/hard)で 32/30/10 を表3で達成。
- データセットサイズと学習エポック数は精度に同様に影響を与え、通常 3-4 エポックで収束を達成。
- 量子化(CTranslate2、GPTQ)による推論最適化はメモリを削減し、推論を高速化するが、HumanEval への影響は様々。
- PanGu-Coder2 はより大規模なモデルを上回る場合があり、いくつかの比較では GPT-4 との差を詰めている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。