Skip to main content
QUICK REVIEW

[論文レビュー] PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

Yidong Wang, Zhuohao Yu|arXiv (Cornell University)|Jun 8, 2023
Topic Modeling被引用数 28
ひとこと要約

PandaLMは、オープンなLLMの指示チューニングハイパーパラメータを評価・最適化するプライバシー保護型ジャッジLLM(PandaLM-7B)を導入し、主観的品質の側面に焦点を当て、APIベースおよび人間の評価と競合する性能を示す。

ABSTRACT

Instruction tuning large language models (LLMs) remains a challenging task, owing to the complexity of hyperparameter selection and the difficulty involved in evaluating the tuned models. To determine the optimal hyperparameters, an automatic, robust, and reliable evaluation benchmark is essential. However, establishing such a benchmark is not a trivial task due to the challenges associated with evaluation accuracy and privacy protection. In response to these challenges, we introduce a judge large language model, named PandaLM, which is trained to distinguish the superior model given several LLMs. PandaLM's focus extends beyond just the objective correctness of responses, which is the main focus of traditional evaluation datasets. It addresses vital subjective factors such as relative conciseness, clarity, adherence to instructions, comprehensiveness, and formality. To ensure the reliability of PandaLM, we collect a diverse human-annotated test dataset, where all contexts are generated by humans and labels are aligned with human preferences. Our results indicate that PandaLM-7B achieves 93.75% of GPT-3.5's evaluation ability and 88.28% of GPT-4's in terms of F1-score on our test dataset. PandaLM enables the evaluation of LLM to be fairer but with less cost, evidenced by significant improvements achieved by models tuned through PandaLM compared to their counterparts trained with default Alpaca's hyperparameters. In addition, PandaLM does not depend on API-based evaluations, thus avoiding potential data leakage. All resources of PandaLM are released at https://github.com/WeOpenML/PandaLM.

研究の動機と目的

  • LLMの指示チューニングハイパーパラメータを最適化するための自動化された、信頼できる評価の必要性を喚起する。
  • 応答の主観的側面と客観的側面の両方を評価するジャッジLLMとしてPandaLMを提案する。
  • PandaLMの信頼性と関連性を検証するために、人間の評価と一致するテストデータセットを作成する。
  • PandaLMで選択されたハイパーパラメータが、Alpacaベースのデフォルトより顕著な性能向上をもたらすことを示す。

提案手法

  • 統一されたファインチューニングデータを用いた、Alpaca-52K風の入力と複数のオープンLLMからの応答から作成された300k件のGPT-3.5生成評価タプルを用いて、PandaLM-7B(LLaMA-7Bベース)を訓練する。
  • 評価結果、根拠、および参照応答をPandaLMの出力として組み込む。
  • 自己指示を用いてデータを蒸留し、ノイズと入力順序バイアスを緩和するためのヒューリスティックフィルタリングを適用する。
  • 高いインターアノテータ同意を持つ人間ラベル付けテストセット(1千サンプル)を構築し、PandaLMを人間およびAPIモデルと比較評価する。
  • 頑健性のため、二重推論アプローチ(順序を入れ替えた応答)を用いて、GPT-3.5、GPT-4、および人間に対してPandaLMを評価する。
(a) Comparison Results of GPT-3.5.
(a) Comparison Results of GPT-3.5.

実験結果

リサーチクエスチョン

  • RQ1主観的・客観的基準を横断して、専用のジャッジLLMが指示チューニングされたLLMを信頼性高く評価し、区別できるか?
  • RQ2多様なテストセットに対して、PandaLM-7Bの評価性能はGPT-3.5、GPT-4、および人間の判断にどれだけ近いか?
  • RQ3PandaLMで選択されたハイパーパラメータは、複数のベースモデルにおいてAlpacaベースのデフォルトよりオープンLLMを改善しますか?
  • RQ4PandaLMはAPIベースの評価に依存せず、プライバシー保護と費用対効果の高い評価を促進する能力がありますか?

主な発見

  • PandaLM-7Bは、多様な人間が注釈したテストセットにおいて、GPT-3.5の評価能力の93.75%、GPT-4の評価能力の88.28%を達成する(F1で)。
  • Models tuned with PandaLM-selected hyperparameters outperform Alpaca-tuned counterparts across multiple base models in human and GPT-based evaluations.
  • PandaLM enables automatic, private evaluation without API data leakage, offering open-source access and reproducibility.
  • A structured tuning procedure (80 configurations per model, four blocks, robust cross-block comparison) identifies effective hyperparameters that vary by base model.
  • On downstream lm-eval tasks, PandaLM-tuned models show consistent improvements over Alpaca-tuned ones across several benchmarks.
(b) Comparison Results of GPT-4.
(b) Comparison Results of GPT-4.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。