Skip to main content
QUICK REVIEW

[論文レビュー] PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback

Bo Shen, Jiaxin Zhang|arXiv (Cornell University)|Jul 27, 2023
Natural Language Processing Techniques被引用数 13
ひとこと要約

PanGu-Coder2 は RRTF を導入し、StarCoder 15B で、HumanEval、CoderEval、LeetCode のベンチマーク全体で最先端のコード生成性能を達成するランキングフィードバックに基づくファインチューニングフレームワークを提供。

ABSTRACT

Large Language Models for Code (Code LLM) are flourishing. New and powerful models are released on a weekly basis, demonstrating remarkable performance on the code generation task. Various approaches have been proposed to boost the code generation performance of pre-trained Code LLMs, such as supervised fine-tuning, instruction tuning, reinforcement learning, etc. In this paper, we propose a novel RRTF (Rank Responses to align Test&Teacher Feedback) framework, which can effectively and efficiently boost pre-trained large language models for code generation. Under this framework, we present PanGu-Coder2, which achieves 62.20% pass@1 on the OpenAI HumanEval benchmark. Furthermore, through an extensive evaluation on CoderEval and LeetCode benchmarks, we show that PanGu-Coder2 consistently outperforms all previous Code LLMs.

研究の動機と目的

  • 人間に近いアラインメント信号の下で正しく効率的なコードを生成する Code LLM の改善を動機づける。
  • コード生成タスクのデータ効率の良い、モデルに依存しないトレーニング・パラダイム(RRTF)を提案する。
  • コードタスクにおいてランキングベースのフィードバックが従来の報酬ベース RL 手法を上回ることを実証する。
  • 複数のベンチマークでの PanGu-Coder2 の優れた性能を示し、データおよびトレーニングのダイナミクスを分析する。

提案手法

  • RRTF を提案する:コード LLM のためのサンプリング、ランキング、トレーニングの三段階フレームワーク。
  • Evol-Instruct を用いて複数ソースからプロンプトと応答を生成する。
  • ユニットテストとヒューリスティックな好みを用いて応答をランキングし、トレーニング信号を作成する。
  • ランキングと教師付きファインチューニングの損失で 15B デコーダーのみモデルを訓練する。
  • leak を避けるよう慎重なデータ整備を伴う Evol-Instruct 派生コーパスで事前学習を行う。
  • HumanEval、CoderEval、LeetCode ベンチマークで pass@k により評価する。

実験結果

リサーチクエスチョン

  • RQ1ランキングベースのフィードバック(RRTF)は、従来の RL ベースの方法と比べて Code LLM のコード生成品質を改善するか。
  • RQ2RRTF で訓練された 15B デコーダーのみモデルは標準ベンチマークで最先端のコード生成性能を達成できるか。
  • RQ3データセットサイズと学習エポック数は PanGu-Coder2 の性能と収束にどう影響するか。
  • RQ4コードモデルに RRTF を適用する際の推論とデータ効率性の考慮事項は何か。

主な発見

モデルパラメータPass@1 (%)Pass@10 (%)Pass@100 (%)
PanGu-Coder215B61.6479.5591.76
WizardCoder15B57.3073.3290.46
StarCoder15B33.6045.7879.82
  • PanGu-Coder2 は Open-source モデルの中で HumanEval(グリーディデコーディング)で 61.64%(pass@1)、79.55%(pass@10)、91.76%(pass@100)を達成。
  • PanGu-Coder2 は HumanEval、CoderEval、LeetCode において greedy decoding の結果で WizardCoder および StarCoder を上回る。
  • PanGu-Coder2 は HumanEval で 62.20%(pass@1)、CoderEval で 38.26%、LeetCode(easy/medium/hard)で 32/30/10 を表3で達成。
  • データセットサイズと学習エポック数は精度に同様に影響を与え、通常 3-4 エポックで収束を達成。
  • 量子化(CTranslate2、GPTQ)による推論最適化はメモリを削減し、推論を高速化するが、HumanEval への影響は様々。
  • PanGu-Coder2 はより大規模なモデルを上回る場合があり、いくつかの比較では GPT-4 との差を詰めている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。