QUICK REVIEW

[論文レビュー] PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback

Bo Shen, Jiaxin Zhang|arXiv (Cornell University)|Jul 27, 2023

Natural Language Processing Techniques被引用数 13

ひとこと要約

PanGu-Coder2 は RRTF を導入し、StarCoder 15B で、HumanEval、CoderEval、LeetCode のベンチマーク全体で最先端のコード生成性能を達成するランキングフィードバックに基づくファインチューニングフレームワークを提供。

ABSTRACT

Large Language Models for Code (Code LLM) are flourishing. New and powerful models are released on a weekly basis, demonstrating remarkable performance on the code generation task. Various approaches have been proposed to boost the code generation performance of pre-trained Code LLMs, such as supervised fine-tuning, instruction tuning, reinforcement learning, etc. In this paper, we propose a novel RRTF (Rank Responses to align Test&Teacher Feedback) framework, which can effectively and efficiently boost pre-trained large language models for code generation. Under this framework, we present PanGu-Coder2, which achieves 62.20% pass@1 on the OpenAI HumanEval benchmark. Furthermore, through an extensive evaluation on CoderEval and LeetCode benchmarks, we show that PanGu-Coder2 consistently outperforms all previous Code LLMs.

研究の動機と目的

人間に近いアラインメント信号の下で正しく効率的なコードを生成する Code LLM の改善を動機づける。
コード生成タスクのデータ効率の良い、モデルに依存しないトレーニング・パラダイム（RRTF）を提案する。
コードタスクにおいてランキングベースのフィードバックが従来の報酬ベース RL 手法を上回ることを実証する。
複数のベンチマークでの PanGu-Coder2 の優れた性能を示し、データおよびトレーニングのダイナミクスを分析する。

提案手法

RRTF を提案する：コード LLM のためのサンプリング、ランキング、トレーニングの三段階フレームワーク。
Evol-Instruct を用いて複数ソースからプロンプトと応答を生成する。
ユニットテストとヒューリスティックな好みを用いて応答をランキングし、トレーニング信号を作成する。
ランキングと教師付きファインチューニングの損失で 15B デコーダーのみモデルを訓練する。
leak を避けるよう慎重なデータ整備を伴う Evol-Instruct 派生コーパスで事前学習を行う。
HumanEval、CoderEval、LeetCode ベンチマークで pass@k により評価する。

実験結果

リサーチクエスチョン

RQ1ランキングベースのフィードバック（RRTF）は、従来の RL ベースの方法と比べて Code LLM のコード生成品質を改善するか。
RQ2RRTF で訓練された 15B デコーダーのみモデルは標準ベンチマークで最先端のコード生成性能を達成できるか。
RQ3データセットサイズと学習エポック数は PanGu-Coder2 の性能と収束にどう影響するか。
RQ4コードモデルに RRTF を適用する際の推論とデータ効率性の考慮事項は何か。

主な発見

モデル	パラメータ	Pass@1 (%)	Pass@10 (%)	Pass@100 (%)
PanGu-Coder2	15B	61.64	79.55	91.76
WizardCoder	15B	57.30	73.32	90.46
StarCoder	15B	33.60	45.78	79.82

PanGu-Coder2 は Open-source モデルの中で HumanEval（グリーディデコーディング）で 61.64%（pass@1）、79.55%（pass@10）、91.76%（pass@100）を達成。
PanGu-Coder2 は HumanEval、CoderEval、LeetCode において greedy decoding の結果で WizardCoder および StarCoder を上回る。
PanGu-Coder2 は HumanEval で 62.20%（pass@1）、CoderEval で 38.26%、LeetCode（easy/medium/hard）で 32/30/10 を表3で達成。
データセットサイズと学習エポック数は精度に同様に影響を与え、通常 3-4 エポックで収束を達成。
量子化（CTranslate2、GPTQ）による推論最適化はメモリを削減し、推論を高速化するが、HumanEval への影響は様々。
PanGu-Coder2 はより大規模なモデルを上回る場合があり、いくつかの比較では GPT-4 との差を詰めている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。