[論文レビュー] SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark
SuperCLUEは、中国語LLMベンチマークをCArena、OPEN、CLOSEの三要素で導入し、現実のユーザー好みを反映させることを示す。OPEN問は閉じた問だけでなくオープンエンド問も必要であること、OPEN問の自動採点にはGPT-4を使用すること、11モデルを評価し、中国語LLMとGPT-4の間に大きなギャップがあることを明らかにする。
Large language models (LLMs) have shown the potential to be integrated into human daily lives. Therefore, user preference is the most critical criterion for assessing LLMs' performance in real-world scenarios. However, existing benchmarks mainly focus on measuring models' accuracy using multi-choice questions, which limits the understanding of their capabilities in real applications. We fill this gap by proposing a comprehensive Chinese benchmark SuperCLUE, named after another popular Chinese LLM benchmark CLUE. SuperCLUE encompasses three sub-tasks: actual users' queries and ratings derived from an LLM battle platform (CArena), open-ended questions with single and multiple-turn dialogues (OPEN), and closed-ended questions with the same stems as open-ended single-turn ones (CLOSE). Our study shows that accuracy on closed-ended questions is insufficient to reflect human preferences achieved on open-ended ones. At the same time, they can complement each other to predict actual user preferences. We also demonstrate that GPT-4 is a reliable judge to automatically evaluate human preferences on open-ended questions in a Chinese context. Our benchmark will be released at https://www.CLUEbenchmarks.com
研究の動機と目的
- 閉じた精度を超えた実世界の中国語環境でのLLM能力を測定する動機。
- オープンエンドの会話および指示遵守能力を捉える多要素ベンチマーク(CArena、OPEN、CLOSE)を開発する。
- OPEN評価とCLOSE評価、及び実際のユーザー好みとの関係を分析する。
- 中国語OPENエンドの回答に対する自動判定としてGPT-4を用いる実現可能性を示す。
提案手法
- LangYa LeaderboardからCArenaを構築し、ユーザー報告の勝ち/タイをゴールドスタンダードとする。
- OPENを600問のオープンエンド問として作成(能力カテゴリ10カテゴリ全体で各30のシングルターン + 30のマルチターン)。
- OPEN SINGLEの茎をGPT-3.5と人間検証によって4択問題へ変換してCLOSEを作成。
- 9つの中国語寄りLLMと3つのグローバルにアクセス可能なモデルをゼロショット設定で評価。
- GPT-4をOPENの自動評価のジャッジとして用い、モデル間比較で評価を行う。
- CLOSEとOPENの評価とCArenaの相関を分析し、補完的な価値を理解する。
実験結果
リサーチクエスチョン
- RQ1OPENとCLOSE形式は中国語LLM対話における現実のユーザー好みをどれほど反映するか。
- RQ2GPT-4は中国語OPEN回答の信頼性の高い自動ジャッジになり得るか、そしてその判断は人間評価者とどのように一致するか。
- RQ3CArenaのユーザーレーティング、OPEN性能、CLOSE精度の関係は中国語LLM間でどうなるか。
- RQ4OPENとCLOSEの組み合わせは、単独の形式より現実のユーザー好みをより良く予測するか。
主な発見
- GPT-4はOPENおよびCLOSEベンチマークで全モデルを上回り、中国語LLMとGPT-4の間にはOPENとCLOSEの結果に大きなギャップがある。
- MiniMaxは調査対象の中国語LLMの中でトップで、いくつかの能力領域でChatGLM2-6Bを補完する。
- GPT-4はOPEN評価で人間評価者と高い一致を示す(Pearson相関 ~0.80)。
- CLOSE精度だけではOPENのような対話型シナリオでユーザーの嗜好をうまく反映できず、OPENとCLOSEはCArenaの結果を予測する上で補完的である。
- OPEN MULTIPLE(マルチターン)はCArenaの嗜好とより強く相関し、OPEN SINGLEよりユーザー嗜好をよりよく捉える文脈を提供する。
- モデル間でCLOSEの結果はおおむね55-60%の精度に集まる一方、OPENの結果は大きくばらつく。現実世界の能力を測るには、クローズドエンドの指標だけでは限界がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。