Skip to main content
QUICK REVIEW

[論文レビュー] SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark

Liang Xu, Anqi Li|arXiv (Cornell University)|Jul 27, 2023
Topic Modeling被引用数 22
ひとこと要約

SuperCLUEは、中国語LLMベンチマークをCArena、OPEN、CLOSEの三要素で導入し、現実のユーザー好みを反映させることを示す。OPEN問は閉じた問だけでなくオープンエンド問も必要であること、OPEN問の自動採点にはGPT-4を使用すること、11モデルを評価し、中国語LLMとGPT-4の間に大きなギャップがあることを明らかにする。

ABSTRACT

Large language models (LLMs) have shown the potential to be integrated into human daily lives. Therefore, user preference is the most critical criterion for assessing LLMs' performance in real-world scenarios. However, existing benchmarks mainly focus on measuring models' accuracy using multi-choice questions, which limits the understanding of their capabilities in real applications. We fill this gap by proposing a comprehensive Chinese benchmark SuperCLUE, named after another popular Chinese LLM benchmark CLUE. SuperCLUE encompasses three sub-tasks: actual users' queries and ratings derived from an LLM battle platform (CArena), open-ended questions with single and multiple-turn dialogues (OPEN), and closed-ended questions with the same stems as open-ended single-turn ones (CLOSE). Our study shows that accuracy on closed-ended questions is insufficient to reflect human preferences achieved on open-ended ones. At the same time, they can complement each other to predict actual user preferences. We also demonstrate that GPT-4 is a reliable judge to automatically evaluate human preferences on open-ended questions in a Chinese context. Our benchmark will be released at https://www.CLUEbenchmarks.com

研究の動機と目的

  • 閉じた精度を超えた実世界の中国語環境でのLLM能力を測定する動機。
  • オープンエンドの会話および指示遵守能力を捉える多要素ベンチマーク(CArena、OPEN、CLOSE)を開発する。
  • OPEN評価とCLOSE評価、及び実際のユーザー好みとの関係を分析する。
  • 中国語OPENエンドの回答に対する自動判定としてGPT-4を用いる実現可能性を示す。

提案手法

  • LangYa LeaderboardからCArenaを構築し、ユーザー報告の勝ち/タイをゴールドスタンダードとする。
  • OPENを600問のオープンエンド問として作成(能力カテゴリ10カテゴリ全体で各30のシングルターン + 30のマルチターン)。
  • OPEN SINGLEの茎をGPT-3.5と人間検証によって4択問題へ変換してCLOSEを作成。
  • 9つの中国語寄りLLMと3つのグローバルにアクセス可能なモデルをゼロショット設定で評価。
  • GPT-4をOPENの自動評価のジャッジとして用い、モデル間比較で評価を行う。
  • CLOSEとOPENの評価とCArenaの相関を分析し、補完的な価値を理解する。

実験結果

リサーチクエスチョン

  • RQ1OPENとCLOSE形式は中国語LLM対話における現実のユーザー好みをどれほど反映するか。
  • RQ2GPT-4は中国語OPEN回答の信頼性の高い自動ジャッジになり得るか、そしてその判断は人間評価者とどのように一致するか。
  • RQ3CArenaのユーザーレーティング、OPEN性能、CLOSE精度の関係は中国語LLM間でどうなるか。
  • RQ4OPENとCLOSEの組み合わせは、単独の形式より現実のユーザー好みをより良く予測するか。

主な発見

  • GPT-4はOPENおよびCLOSEベンチマークで全モデルを上回り、中国語LLMとGPT-4の間にはOPENとCLOSEの結果に大きなギャップがある。
  • MiniMaxは調査対象の中国語LLMの中でトップで、いくつかの能力領域でChatGLM2-6Bを補完する。
  • GPT-4はOPEN評価で人間評価者と高い一致を示す(Pearson相関 ~0.80)。
  • CLOSE精度だけではOPENのような対話型シナリオでユーザーの嗜好をうまく反映できず、OPENとCLOSEはCArenaの結果を予測する上で補完的である。
  • OPEN MULTIPLE(マルチターン)はCArenaの嗜好とより強く相関し、OPEN SINGLEよりユーザー嗜好をよりよく捉える文脈を提供する。
  • モデル間でCLOSEの結果はおおむね55-60%の精度に集まる一方、OPENの結果は大きくばらつく。現実世界の能力を測るには、クローズドエンドの指標だけでは限界がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。