[論文レビュー] Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function
本論文は、人間がLLMを活用する仕組みを支配する人間の一般化関数を定義・定量化し、これらの信念をモデル化するために79タスクにわたって18,972の例を収集し、NLP手法(特にBERT)による信念変化の予測可能性を実証し、より大きなモデルが高リスク設定で人間の配置とずれる可能性があることを示す。
What makes large language models (LLMs) impressive is also what makes them hard to evaluate: their diversity of uses. To evaluate these models, we must understand the purposes they will be used for. We consider a setting where these deployment decisions are made by people, and in particular, people's beliefs about where an LLM will perform well. We model such beliefs as the consequence of a human generalization function: having seen what an LLM gets right or wrong, people generalize to where else it might succeed. We collect a dataset of 19K examples of how humans make generalizations across 79 tasks from the MMLU and BIG-Bench benchmarks. We show that the human generalization function can be predicted using NLP methods: people have consistent structured ways to generalize. We then evaluate LLM alignment with the human generalization function. Our results show that -- especially for cases where the cost of mistakes is high -- more capable models (e.g. GPT-4) can do worse on the instances people choose to use them for, exactly because they are not aligned with the human generalization function.
研究の動機と目的
- 固定されたベンチマークではなく、人間のデプロイメント決定をモデル化する必要がある理由を動機づける。
- LLMの出力を観察した後の信念更新を支配する人間の一般化関数を定義・形式化する。
- MMLUおよびBBHタスクを横断した人間の一般化の大規模データセットを経験的に収集・分析する。
- 人間の一般化がNLPモデルを用いて予測可能であることを示し、これらの一般化とLLMの整合性を評価する。
提案手法
- 展開を人間の信念 b(x|f) と人間のデプロイメント分布 h(x|f) に結びつける正式な枠組み。
- Banditガイド付き調査デザインを用いて、MMLUおよびBBHから79タスクに跨る18,972の人間一般化の例を収集。
- 信念変化を二値予測タスク Δ(x|x′,f) としてモデル化し、さまざまな予測変数を評価する(以前の正解、固定埋め込み + XGBoost、BERT、Llama-2系、GPT-3.5、GPT-4)。
- 評価にはNLLとAUCを用いて、モデルが人間の信念更新をどれだけ予測できるかを評価する(信念変化が観測されるベンチマークに焦点を当てる)。
実験結果
リサーチクエスチョン
- RQ1人間は、単一の回答を観察した後、関連する質問群にわたってLLMの能力をどのように一般化するか?
- RQ2NLPモデルは人間がLLMの能力についての信念が変化する時期を予測できるか?
- RQ3さまざまなデプロイリスク仮定の下で、異なるLLMが人間の一般化関数とどれだけ整合しているか?
主な発見
- 人間の一般化関数はまばらで:観測された回答の後、多くの質問ペアは信念を更新しない。
- 信念変化の予測は実現可能:テキストベースのモデル(特にBERT)は非テキストのベースラインを上回り、保持データで最良のAUCはおおよそ0.81。
- より大きなモデルは高リスク設定で人間の一般化に対して整合しない可能性があり、全体的な能力が高いにもかかわらずデプロイメント性能が悪化する可能性がある(例:GPT-4)。
- テキスト情報を利用したモデルで信念変化の予測が向上し、既存のNLP表現には人々がモデルの能力を推論する方法に関連する構造が含まれていることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。